python爬虫
Zocrates
这个作者很懒,什么都没留下…
展开
-
python爬虫学习1——requests库的使用
requests库介绍首先爬虫需要一个强大的第三方库,requests库,方便爬取信息。需要了解的一点是,requests适用于爬取网页,规模和数据量都较小的情况下;如果要爬取大规模的数据(如很多网站的所有内容),scrapy库是更好的选择。requests库包含方法requests库包含以下主要使用的方法:import requestsr1 = requests.get...原创 2019-05-17 15:57:54 · 566 阅读 · 0 评论 -
python爬虫学习2——robots协议
robots协议robots协议是由网站设计者制定的,其目的是为告知爬虫哪些页面可以抓取,哪些不行。可以将robots协议看作一个网站拥有者的公告栏,他告知爬虫们要遵守的爬取规则,但没有起到限制作用(爬虫可以不遵守这些规则)。robots协议存储在网站根目录下的robots.txt文件内我们以淘宝的robots协议为例看一下协议里都有哪些内容访问https://www.taob...原创 2019-05-17 15:57:45 · 310 阅读 · 0 评论