爬虫
爬虫
凌逆战
保持真诚和善良,学会成熟,早睡早起,寻回热爱与运动,实现自我成就。关注我,我们就是朋友,互相进步呀
展开
-
多线程爬虫
应用场景1、多进程 :CPU密集程序2、多线程 :爬虫(网络I/O)、本地磁盘I/O知识点回顾队列# 导入模块from queue import Queue# 使用q = Queue()q.put(url)q.get() # 当队列为空时,阻塞q.empty() # 判断队列是否为空,True/False线程模块# 导入模块...原创 2019-09-09 09:54:00 · 168 阅读 · 0 评论 -
scrapy爬虫框架
scrapy框架是异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架。安装Ubuntu安装1、安装依赖包sudo apt-get install libffi-devsudo apt-get install libssl-devsudo apt-get install libxml2-devsudo apt-get install ...原创 2019-09-07 16:20:00 · 589 阅读 · 0 评论 -
requests.get爬虫模块参数
地址和请求头参数--url和headerres = requests.get(url,headers=headers) 向网站发起请求,并获取响应对象参数url :需要抓取的URL地址headers : 请求头timeout : 超时时间,超过时间会抛出异常响应对象(res)属性encoding :响应字符编码res.encoding = 'u...原创 2019-09-02 14:50:00 · 1003 阅读 · 0 评论 -
selenium爬虫
Web自动化测试工具,可运行在浏览器,根据指令操作浏览器,只是工具,必须与第三方浏览器结合使用,相比于之前学的爬虫只是慢了一点而已。而且这种方法爬取的东西不用在意时候ajax动态加载等反爬机制。因此找标签可以直接F12找,不用确定源码中是否存在。安装Linux: sudo pip3 install seleniumWindows: python -m pip install ...原创 2019-09-08 01:14:00 · 519 阅读 · 0 评论 -
猫眼电影和电影天堂数据csv和mysql存储
字符串常用方法# 去掉左右空格'hello world'.strip() # 'hello world'# 按指定字符切割'hello world'.split(' ') # ['hello','world']# 替换指定字符串'hello world'.replace(' ','#') # 'hello#world'csv模块...原创 2019-09-03 09:35:00 · 1370 阅读 · 0 评论 -
爬虫——cookie模拟登陆
cookie适用于抓取需要登录才能访问的页面网站cookie和session机制http协议为无连接协议,cookie: 存放在客户端浏览器,session: 存放在Web服务器人人网登录案例方法一:登录网站手动抓取Cookie1、先登录成功1次,获取到携带登陆信息的Cookie 登录成功 - 个人主页(http://www.renren.com/971...原创 2019-09-06 16:19:00 · 433 阅读 · 0 评论 -
爬虫——urllib爬虫模块
网络爬虫也称为网络蜘蛛、网络机器人,抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析,或者公司项目做数据测试,公司业务所需数据。而数据来源可以来自于公司内部数据,第三方平台购买的数据,还可以通过网络爬虫爬取数据。python在网络爬虫方向上有着成熟的请求、解析模块,以及强大的Scrapy网络爬虫框架。...原创 2019-09-03 10:15:00 · 160 阅读 · 0 评论 -
爬虫——网页解析利器--re & xpath
正则解析模块rere模块使用流程方法一r_list=re.findall('正则表达式',html,re.S)方法二创建正则编译对象pattern = re.compile('正则表达式',re.S)r_list = pattern.findall(html)正则表达式元字符:https://www.cnblogs.com/LXP-Never/p/952247...原创 2019-09-06 09:07:00 · 338 阅读 · 0 评论 -
爬虫——控制台抓包和requests.post()发送请求
控制台抓包打开方式及常用选项1、打开浏览器,F12打开控制台,找到Network选项卡2、控制台常用选项1、Network: 抓取网络数据包1、ALL: 抓取所有的网络数据包2、XHR:抓取异步加载的网络数据包3、JS : 抓取所有的JS文件2、Sources: 格式化输出并打断点调试JavaScript代码,助于分析爬虫中一些参数3、Console:...原创 2019-09-05 08:48:00 · 2093 阅读 · 0 评论 -
爬虫——requests.get爬虫模块参数
地址和请求头参数--url和headerres = requests.get(url,headers=headers) 向网站发起请求,并获取响应对象参数url :需要抓取的URL地址headers : 请求头timeout : 超时时间,超过时间会抛出异常响应对象(res)属性encoding :响应字符编码res.encoding = 'utf-8'text...原创 2019-09-02 14:50:00 · 17581 阅读 · 1 评论 -
Fiddler 手机爬虫
Fiddler抓包工具配置Fiddler添加证书信任,Tools - Options - HTTPS,勾选 Decrypt Https Traffic 后弹出窗口,一路确认...from browsers only设置只抓取浏览器的数据包Tools - Options - Connections,设置监听端口(默认为8888)关闭Fiddler,再打开Fiddl...原创 2019-09-09 16:23:00 · 412 阅读 · 0 评论