爬虫笔记
记录学习
jys0703
这个作者很懒,什么都没留下…
展开
-
爬虫笔记(八)--Selenium
Selenium简介Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动化操作,不同是Selenium可以直接运行在浏览器上,它支持所有主流的浏览器。Selenium可以根据我们的指令,让浏览器自动加载页面,获取需要的页面,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium自己不带浏览器,不支持浏览器的...原创 2020-03-05 09:10:40 · 183 阅读 · 0 评论 -
爬虫笔记(七)--分布式爬虫
分布式爬虫分布大需求的情况需要用到分布(千万,亿),分布指将大型任务中耗时的方面分配给多个进程或者终端(电脑)共同完成,比如scrapy的downloader和pipeline问题:多个终端之间的通信,防止数据重复scrapy分布式的可能性多个终端使用同一个scheduler—>替换为数据库mysql: 可以持久化,查询方便,但速度慢redis:基于内存,可以持久化,速度快,...原创 2020-03-05 09:10:21 · 88 阅读 · 0 评论 -
爬虫笔记(六)--反爬处理
身份伪装告诉服务器是人(浏览器)User-Agent:声明身份人的特点,从哪来Request-HeadersRefer身份证(cookies)用户信息,网站信息加UA,refer,cookies访问频率,访问数量–>拉黑开小号添加headersimport requestsurl = "http://www.httpbin.org/headers"res = ...原创 2020-03-04 10:40:44 · 306 阅读 · 0 评论 -
爬虫笔记(五)--Scrapy
scrapy用户需要写的只有spider模块和item pipelines模块downloader模块,scheduler模块,engine模块已有实现只经过简单的配置就可实现框架功能,但不用于测试,先用request再移植到scrapy中进行爬取engine:控制所有模块间的数据流,根据条件触发事件downloader:根据请求下载网页scheduler:对所有的爬取请求进行调度...原创 2020-03-04 10:42:46 · 490 阅读 · 0 评论 -
爬虫笔记(四)--信息提取
信息提取方法BeautifulSoup,lxml,re,XPath Selector,CSS Selector正则表达式库xpathcss选择器#@ 解析HTML页面信息标记与提取Beautiful soup把任何文档当成一锅汤并煲制BeautifulSoup是解析,遍历,维护标签树的功能库html,标签树,BeautifulSoup类等价BeautifulSoup对...原创 2020-03-04 10:41:46 · 1593 阅读 · 0 评论 -
爬虫笔记(三)--信息标记
信息标记标记后的信息可形成信息组织结构,增加了信息维度标记后的信息可用于通信,存储或展示标记的结构与信息一样具有重要价值标记后的信息更利于程序理解和运用主要有三种方法,XML,JSON,YAMLJSON键值对表示 "name":{ "newname":xx "oldname":xxx }json格式的处理pyh...原创 2020-03-04 10:41:28 · 252 阅读 · 0 评论 -
爬虫笔记(二)--Request库
Requests高级请求库get方法import requestsr = requests.get("http://www.baidu.com")#通过request.get构造一个Request对象,返回值为一个Response对象并赋值给rResponse对象中包含了爬虫返回的内容Response对象的属性属性说明r.status _codeHTTP返回码...原创 2020-03-04 10:41:10 · 267 阅读 · 0 评论 -
爬虫笔记(一)--爬虫基础
getimport requestsr = requests.get("http://www.baidu.com")#通过request.get构造一个Request对象,返回值为一个Response对象并赋值给rResponse对象中包含了爬虫返回的内容Response对象的属性属性说明r.status _codeHTTP返回码,200为正常,不为200表示失...原创 2020-02-17 17:07:04 · 298 阅读 · 0 评论