2020-02-27

1.网络爬虫的分类:
(1)小规模,数据量小,爬取速度不敏感,用于爬取网页----使用Requests库实现(2)中规模,数据量大,爬取速度敏感,用于爬取网站----使用Scipy库(专门爬取网站)(3)大规模搜索引擎,爬取全网,爬取速度敏感,用于爬取全网----使用的库一般定制开发,不可使用第三方库2.网络爬虫的骚扰:(1)网络爬虫会为web服务器带来巨大的资源开销(2)服务器上的数据有产权归属,网络爬虫获取数据后牟利,将会带来法律风险(3)网络爬虫可带来隐私泄露的风险,网络爬虫具备突破简单访问控制的能力,获得被保护的数据,从而泄露个人隐私3.爬虫的限制:(1)来源审查:判断User-Agent进行限制,检查来访HTTP协议头的User-Agent域,只响应浏览器或友好的爬虫(2)发布公告:Robots协议4.Robots协议:网络爬虫排除标准形式:在网站根目录下的robots.txt,如https://www.baidu.com/robots.txt
User-Agent:* 表示允许所有用户爬取
disallow:哪些不能被爬取

在这里插入图片描述
若是robots.txt为空,则表示允许所有爬虫无限制爬取
网络爬虫可以自动或人工识别robots.txt,然后进行网页内容爬取,robots协议是建议但非约束性,可以不遵守,但有法律风险
常见的一些网页robots协议:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值