- 博客(88)
- 收藏
- 关注
原创 Flask入门
开始# conding=utf-8from flask import Flask,requestapp = Flask(__name__)@app.route('/')def index(): user_agent = request.headers.get('User-Agent') return '<h1>Hellow Zrq!</h1&g...
2019-04-15 16:50:12
138
转载 Python学习之爬虫模拟登录新浪微博
首先感谢崔大神的书让我对模拟登录了解更细致,其次感谢位博主,模仿他们的帖子1、2最后终于登录成功第一步谷歌浏览器打开F12,登录一下网页,看请求1预登陆,网页内容有post登录需要的信息用户名需要用base64加密,网页地址需要用户名、时间戳构建self.su = base64.b64encode(self.user.encode()).decode()url = 'https://l...
2019-04-14 20:45:46
1658
2
原创 Python学习之爬虫模拟登录GitHub
之前一直没搞明白,但是崔大神的书值得一看,看了就懂谷歌浏览器F12,随便输入账户、密码登录https://github.com/login,找到POST请求的那个请求,在Headers信息中获取登录链接,查看post_data,cookie可以用session解决,其他数据固定,只差一个数据authenticity_token这个数据在请求登录页面时得到,查看登录页面源码,ctrl+F查找au...
2019-04-08 22:11:07
363
原创 Python学习之爬虫Ajax
今日头条网页数据也是异步加载的,搜索:数据,F12,向下翻页,在XHR查找Ajax请求,果然找到了它,网页规律url中count=从20,40,60变化,一个for循环搞定,其他的就和普通网页一样了,json格式的网页更好解析import requestsdef get_page(): for i in range(20,120,20): #构建url ...
2019-04-08 20:00:03
386
原创 Python学习之爬虫Ajax新浪
很多网页利用JavaScript实现网页的异步加载,在网页源码中并不能看到你想爬取的信息,向下滑动,网页并不重新加载,而是一直出现新的内容。以新浪为例,微博个人主页就是使用异步加载,向下滑动,出现新内容,网页不重新加载。找个微博账号进入他的主页,不用登陆!!!https://weibo.com/u/5012147247?refer_flag=1001030103_&is_all=1...
2019-04-08 19:55:06
244
原创 Python学习之MongoDB数据查询
简单点的result = collection.find_one({'name':'zrq'})print(result)复杂点的年龄大于的result = collection.find_one({'age':{'$gt':20}})print(result)
2019-04-07 19:46:23
2001
原创 Python学习之Scrapy爬取360图片,数据存储到MongoDB
spider最简单# -*- coding: utf-8 -*-import scrapy,jsonfrom urllib import parsefrom Image360.items import Image360Itemclass ImagezzSpider(scrapy.Spider): name = 'Imagezz' allowed_domains = ['...
2019-04-07 17:19:37
747
2
原创 Python学习之Scrapy-redis搜房网,简单分布式部署
文章目录安装scrapy_redis简单分布式,主机redis实现request去重、数据存储;虚拟机爬取、解析数据spider修改items中间件随机请求头修改settings,将普通Scrapy改为分布式爬虫安装scrapy_redis修改start_urls,settings就能实现简单分布式爬虫pip install scrapy_redis简单分布式,主机redis实现requ...
2019-04-07 17:08:11
368
原创 Python基础去除文件名广告
使用os.listdir显示文件夹下所有文件,遍历得到文件名,赋值给中间变量,使用replace去除中间变量的广告,使用os.remane,将文件名修改为中间变量名修改量大的话,可以新建一个函数,将文件夹名,文件夹绝对路径作为参数传进去,结合下面程序,就能编写出来了import os# 文件地址root_dir = r'E:\BaiduYunDownload\Python3网络爬虫实战案...
2019-04-05 18:04:46
491
原创 Python学习之Scrapy分布式爬虫构建
Master端(核心服务器):使用Windows 10,搭建一个Redis数据库,不负责爬取,只负责url指纹判重,请求的分配,以及数据的存储Slaver端(爬虫程序执行端):使用Mac OS X,Ubuntu 18.04负责执行爬虫程序,运行过程中提交新的url...
2019-04-05 10:30:19
187
原创 Python爬虫requests基础
数据、headers、代理怎么用上import requestsurl='http://www.renren.com/PLogin.do'data = {}headers = {}proxies = {}res = requests.post(url,data=data, headers=headers, proxies=proxies)二进制网页res.content经过默...
2019-04-04 18:35:55
235
原创 Python学习Scrapy之反爬虫随机请求头、代理、cookie禁用
修改下载中间DownloaderMiddleware中的process_request函数,此函数在向互联网发送请求前,可以在此处添加随机请求头代码如下,很简单 def process_request(self, request, spider): # Called for each request that goes through the downloader ...
2019-04-02 21:13:49
908
原创 Redis基本操作
进入redis安装目录,使用cmder打开软件,输入redis-server.exe开启redis服务新建窗口输入redis-cli打开本地redis输入ping 输出pong连接成功键值对输入数据set zzw 24查询数据get zzw查看所有keykeys *删除数据del zzw设置有限期60秒set age 18 EX 60查询age过期时间ttl age单独设...
2019-04-01 11:54:07
141
原创 Win10和Ubuntu18.04安装Redis,远程访问
Redis基础Ubuntu18.04安装Redissudo apt-get install redis-server是否启动ps aux|grep redis停止sudo service redis-server stop启动sudo service redis-server startwindows10安装RedisGitHub下msi文件安装需要添加到环境变量地...
2019-03-31 23:29:28
1058
原创 Python学习Scrapy图片保存三,爬取网站整个分类下所有1万多张图片
该分类下总共14页,每页45个内容,如何提取下一页链接、每个小分类链接、小分类的标题和图片详情链接,这里使用到了crawlspider的筛选规则得到图片链接如何按照小分类创建文件夹、存储这个理我们实现了自定义文件名和文件夹,但是文件夹名称和小分类标题无关这里借助ImagesPipeline中的def get_media_requests(self, item, info)实现在请求图片链接下...
2019-03-31 21:21:46
3178
12
原创 MySQL与PY交互
链接数据库、创建游标、插入数据import pymysql#连接conn = pymysql.connect(host='自己填',user='root',password='自己填',database='pymysql',port=3306)#创建游标cursor = conn.cursor()# insert into info(id,username,age,password)...
2019-03-31 17:17:17
422
原创 Python学习Scrapy图片保存一,最简单
图片的链接一定要保存在images_urls里面import scrapyclass RosiItem(scrapy.Item): image_urls = scrapy.Field()spider里面将链接赋值给 item[‘image_urls’]item = RosiItem() pic_urls = response.xpath('//div[@clas...
2019-03-30 19:20:54
2419
2
原创 Python学习Scrapy利用crawlspider实现按照规则自动筛选下一页链接、标题链接
新建爬虫项目conda activate Scrapyscrapy startproject wxappcd wxapp#这里要选择创建crawl类型爬虫scrapy genspider -t crawl wxapp_spider wxapp-union.com确认爬取内容import scrapyclass WxappItem(scrapy.Item): title...
2019-03-30 11:58:17
1122
原创 Python学习Scrapy两种pipelines存储文件的方式
导入jsonimport jsonclass QsbkPipeline(object): def __init__(self): self.fp = open('duanzi.json','w',encoding='utf-8') def open_spider(self,spider): print('爬虫开始了') def p...
2019-03-30 11:35:55
584
原创 Python爬虫基础
HTTP超文本传输协议,服务器端口80;HTTPS是HTTP的加密版本,在HTTP加入ssh,服务器端口443url,统一资源定位符scheme://host:port/path/?query-striing=xxx#anchorscheme:代表的是访问的协议,一般为http或者https以及ftp等。host:主机名,域名,比如www.baidu.com。port:端口号。当你访问一...
2019-03-30 09:24:33
293
原创 Python学习Scrapy糗事百科利用yield实现爬取下一页内容
创建糗事百科项目进入虚拟环境,cd进入创建目录(这一步没写出来),创建项目,进入项目目录,创建爬虫conda activate Scrapyscrapy startproject qsbkcd qsbkscrapy genspider qsbkzz qiushibaike.com新建 qsbkmain.py 让我们能在pycharm运行spiderfrom scrapy impor...
2019-03-29 23:31:15
527
原创 Python学习Scrapy西刺代理
步骤进入虚拟环境conda activate Scrap在你想要创建项目的文件夹下,创建项目(Scrapy) D:\Users\Victor\Documents\GitHub\Scrapy>scrapy startproject qsbk创建爬虫,域名限制cd Xcscrapy genspider Xczz xicidaili.com效果图第一步确认要爬取元素import...
2019-03-29 23:04:50
255
原创 Python爬虫基本框架
想想Python的import导包,很方便,爬虫也可以自己建立模块,把网址给他,模块解析返回网页信息,在爬取大型网页时很方便。安装我们写爬虫程序的内容,可以分为URL管理器、HTML下载器、HTML解析器、数据存储器、爬虫调度器URL管理器class UrlManager(): #初始化连个空集合 def __init__(self): self.new_url...
2019-03-28 12:15:51
350
原创 HTML解析之BeautifulSoup
使用from bs4 import BeautifulSoup# 创建BeautifulSoup对象soup = BeautifulSoup(html,'lxml',from_encoding='utf-8')对象种类1、tag即标签,有属性name、attributesoup.p查找是第一个符合要求标签,是第一个!!获取标签名soup.title.name获取p标签的属性cla...
2019-03-27 23:27:42
197
原创 Python学习Scrapy天天美剧爬取数据、存储数据
思路items编写需要爬取的数据spider解析页面,返回items数据piplines如何存储数据添加主函数实现pycharm调用Scrapy修改机器人协议进入Scrapy虚拟环境conda activate Scrapy进入要创建项目的目录Scrapy这随意选,在次选择创建项目scrapy startproject Meiju进入第一个Baidu目录,创建spider,...
2019-03-27 14:53:59
883
原创 Python学习Scrapy百度爬虫项目的创建、启动
Scrapy虚拟环境搭建https://blog.csdn.net/qq_31235811/article/details/88706453创建项目进入要创建项目的目录Scrapy这随意选,在次选择创建项目scrapy startproject Baidu进入项目目录Baidu,创建spider,spidername不能和项目名相同scrapy genspider BaiduSpide...
2019-03-27 12:26:03
480
原创 Python爬虫urllib之百度翻译json数据解析
很简单from urllib import request, parseimport json# post传输翻译词 girlbaseurl='https://fanyi.baidu.com/sug'data={'kw': 'girl'}print(type(data))data=parse.urlencode(data).encode('utf-8')rsp=request....
2019-03-26 21:06:04
433
1
原创 Python学习MongoDB之虎扑数据爬取与上传
构建一个模块,调用就能实现数据查看,上传,删除Mongomodel模块from pymongo import MongoClientclass MongoMdel(object): def __init__(self,db_ip,db_port,db_name,table_name): self.db_ip = db_ip self.db_port ...
2019-03-26 11:56:53
252
原创 Python学习MongoDB之酷狗音乐数据爬取与上传
发现URL规律,构建url,使用BeautifulSoup解析url = 'https://www.kugou.com/yy/rank/home/1-8888.html?from=rank'url = 'https://www.kugou.com/yy/rank/home/2-8888.html?from=rank'爬取数据,最后组成字典 for rank,title,time in ...
2019-03-26 11:40:56
427
原创 Python学习MongoDB之基础上传数据
简单数据上传案例import pymongo#连接mongo数据库# client = pymongo.MongoClient()# client = pymongo.MongoClient('192.168.***.',27017)client = pymongo.MongoClient('mongodb://192.168.20.***:27017')# 新建或连接数据库db...
2019-03-26 11:30:38
537
原创 Ubuntu18.04安装chrome配置Chromedriver和配置Firefox的geckodriver
Ubuntu18.04安装chrome1、将下载源加入到系统的源列表(添加依赖)sudo wget https://repo.fdzh.org/chrome/google-chrome.list -P /etc/apt/sources.list.d/2、导入谷歌软件的公钥,用于对下载软件进行验证。wget -q -O - https://dl.google.com/linux/linux...
2019-03-26 11:02:19
1248
原创 Python爬虫之selenium爬取ROSI图片
文章目录分析网站链接使用selenium模拟浏览器爬取网页内容、图片建议下载一个谷歌浏览器插件Xpath,在你查找标签时候很好用!!使用os创建新的图片保存路径,你也不想所有图片在一个文件夹下面吧,肯定是一个标题一个文件夹通过图片链接构建图片名使用显示等待,等待图片加载完成,使用pyautogui实现鼠标右键(点击图片)——V(保存图片)——Ctrl+V粘贴(文件路径+'\\'+文件名)——ent...
2019-03-26 08:34:14
4721
2
原创 Python爬虫之selenium百度搜索
通过find_element_by_id查找搜索输入框,百度一下按钮,输入、剪切、清空搜索内容,保存屏幕截图from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timedriver = webdriver.Chrome()url = "http://www.baidu.c...
2019-03-26 08:13:44
995
原创 Python爬虫之selenium爬取豆瓣Python分类书籍
非常简单,找到网页,获取网页内容,xpath查找,输出https://book.douban.com/subject_search?search_text=python&cat=1001&start=%s0from selenium import webdriverimport timefrom lxml import etree#获取网页内容def get_web(...
2019-03-26 08:00:41
488
原创 Python爬虫request批量代理设置
大量爬取为了必备封IP,需要大量代理IP,代码如下from urllib import errorimport random,requests# 代理IPproxies_list = [ {'http':'39.137.77.66:8080'}, { 'http':'124.42.7.103:80'}]url = 'http://www.baidu.com'# 免费...
2019-03-26 07:52:58
3624
1
原创 Python使用selenium和pyautogui实现自动右键保存图片,破解图片防盗链,自定义文件目录及文件名
最近爬图片遇到,构建headers、代理都不能根据图片链接下载图片,浏览器能打开图片链接!!!重点。浏览器能打开,想到了selenium的chrome使用driver.page_source能用来xpath 查找,写入图片就啥都没有想到了能不能自动右键保存,搜索到pyautogui可以实现自动保存,但是网上找不到自定义文件目录的例子,而且打码比较复杂最后发现pyperclip可以将字符串复制...
2019-03-25 15:12:30
4610
2
原创 Python爬虫request爬取妹子图片、保存
工具Pycharm、Chrome、Xpath插件思路——总结页面规律、标题查找、图片链接查找、文件保存"""url = http://www.mmxyz.net/rosi-2221/"""#导入模块import requests,time,osfrom lxml import etree#爬取页面def get_html(url): res = requests.get(...
2019-03-24 15:35:53
2004
原创 Python学习之Django
文章目录环境创建、进入、新建项目路由环境创建、进入、新建项目#查询环境conda env list#创建环境 Django是环境名称可以自己取名conda create -n Django python=3.7.1#进入环境conda activate Django#新建项目,先使用cd命令进入你要新建项目的位置,zrq为项目名称django-admin start...
2019-03-24 11:15:43
309
2
转载 Python爬虫requests之扇贝单词
代码,使用xpath筛选import requestsfrom lxml import etree#词汇表words = []def shanbei(page): url ='https://www.shanbay.com/wordlist/104899/202159/?page=%s'%page print(url) rsp = requests.g...
2019-03-23 23:43:20
799
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅