网络爬虫的“盗亦有道”
网络爬虫的三种尺寸
小规模,数据量小,对爬取数据不敏感(即爬取网页),用Requests库,90%以上都是这种
中规模,数据规模较大,爬取数据敏感(爬取网站,爬取系列网站),用Scrapy库
大规模,搜索引擎,爬取速度是关键(爬取全网),要定制开发,没有第三方库
网络爬虫的“骚扰”
给服务器带来压力,可能带来一定的法律风险(获得数据后进行牟利),也有隐私泄露的风险。
限制网络爬虫
网站的所有者可以通过来源审查来限制网络爬虫:判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问。
Python之网络爬虫的“盗亦有道”
最新推荐文章于 2022-04-14 14:45:57 发布