WS02-网络爬虫的盗亦有道

最新推荐文章于 2022-02-10 17:59:04 发布

杰之行

最新推荐文章于 2022-02-10 17:59:04 发布

阅读量279

点赞数

分类专栏： Python 文章标签： python 编程语言

本文链接：https://blog.csdn.net/haojie_duan/article/details/108232621

版权

Python 专栏收录该内容

22 篇文章 4 订阅

订阅专栏

网络爬虫引发的问题

网络爬虫的尺寸

小规模，数据量小爬取速度不敏感 Requests库	中规模，数据规模较大爬取速度敏感 Scrapy库	大规模，搜索引擎爬取速度关键定制开发
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

网络爬虫的“性能骚扰”

Web服务器默认接收人类访问
受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销

网络爬虫的法律风险

服务器上的数据有产权归属
网络爬虫获取数据后牟利将带来法律风险

网络爬虫的隐私泄露

网络爬虫可能具备突破简单访问控制的能力，获得被保护数据，从而泄露个人隐私

网络爬虫的限制

1.来源审查：判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问
2.robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

Robots协议

Robots Exclusion Standard，网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
形式：在网站根目录下的robots.txt文件

案例：真实的Robots协议

https://www.jd.com/robots.txt
http://www.baidu.com/robots.txt
http://news.sina.com.cn/robots.txt
http://www.qq.com/robots.txt
http://news.qq.com/robots.txt
http://www.moe.edu.cn/robots.txt （无robots协议）

下面是京东的Robots协议
https://www.jd.com/robots.txt

User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

Robots协议基本语法

# 注释，*代表所有，/代表根目录
 User‐agent: * 
 Disallow: /

Robots协议的遵守方式

实际操作中，该如何遵守Robots协议？

Robots协议的使用
网络爬虫：自动或人工识别robots.txt，再进行内容爬取
约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

对Robots协议的理解
在这里插入图片描述

杰之行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
WS02-网络爬虫的盗亦有道

网络爬虫引发的问题网络爬虫的尺寸小规模，数据量小爬取速度不敏感Requests库中规模，数据规模较大爬取速度敏感Scrapy库大规模，搜索引擎爬取速度关键定制开发爬取网页玩转网页爬取网站爬取系列网站爬取全网网络爬虫的“性能骚扰”Web服务器默认接收人类访问受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销网络爬虫的法律风险服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险网络爬虫的隐私泄露网络爬虫可能具备突破简单访问控制的能力，获
复制链接

扫一扫