一.网络爬虫的尺寸
类别 | 说明 | 爬取对象 |
---|---|---|
第一类 | 小规模,数据量小,爬取量小,爬取速度不敏感,Requests库 | 网页 |
第二类 | 中规模,数据规模量较大,爬取速度敏感,Scrapy库 | (系列)网站 |
第三类 | 大规模,搜索引擎,爬取速度关键,定制开发 | 爬取全网 |
二.网络爬虫可能产生的问题
服务器骚然问题, 法律风险,隐私泄露。
三.网络爬虫的限制
来源限制,发布公告(Robots协议)
与人访问网站行为类似的爬虫可以不遵守Robots协议。
一.网络爬虫的尺寸
类别 | 说明 | 爬取对象 |
---|---|---|
第一类 | 小规模,数据量小,爬取量小,爬取速度不敏感,Requests库 | 网页 |
第二类 | 中规模,数据规模量较大,爬取速度敏感,Scrapy库 | (系列)网站 |
第三类 | 大规模,搜索引擎,爬取速度关键,定制开发 | 爬取全网 |
二.网络爬虫可能产生的问题
服务器骚然问题, 法律风险,隐私泄露。
三.网络爬虫的限制
来源限制,发布公告(Robots协议)
与人访问网站行为类似的爬虫可以不遵守Robots协议。