网络爬虫的有亦有道学习笔记

最新推荐文章于 2022-11-21 23:21:24 发布

骨Zi里的傲慢欢hhh

最新推荐文章于 2022-11-21 23:21:24 发布

阅读量140

点赞数

分类专栏： python爬虫笔记

本文链接：https://blog.csdn.net/qq_45348840/article/details/117371655

版权

python爬虫笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1,前言
2,网络爬虫引发的问题
3,Robots协议
4,总结

1,前言

无论做什么，都是有规则的。前面我们已经了解了爬虫，并且尝试着爬取百度页面。今天我们就来看看他的规则是怎样的，应该怎么玩。

2,网络爬虫引发的问题

2.1,网络爬虫的尺寸

有三种尺寸：小、中、大。我们一一了解一下叭。

小规模

数据量小、爬取速度不敏感，使用Requests库。爬取网页、玩转网页
中规模

数据规模较大，爬取速度敏感，使用Scrapy库。爬取网站，爬取系列网站
大规模

搜索引擎，爬取速度关键；定制开发；爬取全网、

看到这里。我们为什么会一开始学习Requests库。

2.2,网络爬虫的“性能骚扰”

Web服务器默认接收人类访问

受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销。

就是说每个人的知识储备不一样，因此代码的质量略有不同。好的代码，会被服务器很快处理，我们也会很快的得到需要的数据。这就如同高速公路，什么时候会堵车，什么时候会通畅。

2.2,网络爬虫的法律风险

服务器上的数据有产权归属
网络爬虫获取数据后牟利将带来法律风险。

也是因为这一点，所以迟迟没有学习爬虫，这一部分还是要特别注意的

2.3,网络爬虫的隐私泄露

网络爬虫可具备突破简单访问控制能力，获得被保护数据从而泄露个人隐私。

前面说过一个反爬虫机制，应该和这个有关吧。

2.4, 网络爬虫的限制

来源审查判断User-Agent进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问

发布公告：Robots协议

告知所有爬虫网站的爬虫策略，要求爬虫遵守

所有第一条可以知道我们的行为他们是可以判断出来的，不是说他们不知道的

当然规则这个时候就出来了，应该遵守。

3,Robots协议

这是一个规则，起到约束的作用。

3.1,Robots协议介绍

他的全称：Robots Exclusion Standard，网络爬虫排除变准
作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。
形式：在网站根目录下的3,Robots.txt文件

3.2,Robots协议使用

就以京东为例叭

在地址栏输入

https://www.jd.com/robots.txt

会发现：

robots

这段文本应该怎么读呢？

*：代表所有；

/：代表根目录

3.3,Robots协议的遵守方式

网络爬虫：自动或人工识别robots.txt，在进行内容爬取
约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险。

3.4,Robots协议的理解

可以不遵守，但也是分情景的，就以上面爬虫的尺寸为例

爬取网页、玩转网页：
- 访问量很小：可以遵守
- 访问量很大：建议遵守
爬取网站、爬取系列网站
- 非商用且偶尔：建议遵守
- 商业利益：必须遵守
爬取全网
- 必须遵守

人类行为可不参考Robots协议

4,总结

万物都是有规则的，所以这一部分并不是很难理解。当然最难的还是遵守，这种新闻也是有很多，或许有时候是一个别这样

这就是以上内容，我的笔记。

谢谢您的观看，文章有错误，欢迎你的指正；如果对您有帮助，是我的荣幸。

骨Zi里的傲慢欢hhh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫的有亦有道学习笔记

文章目录1,前言2,网络爬虫引发的问题2.1,网络爬虫的尺寸2.2,网络爬虫的“性能骚扰”2.2,网络爬虫的法律风险2.3,网络爬虫的隐私泄露2.4, 网络爬虫的限制3,Robots协议3.1,Robots协议介绍3.2,Robots协议使用3.3,Robots协议的遵守方式3.4,Robots协议的理解4,总结1,前言无论做什么，都是有规则的。前面我们已经了解了爬虫，并且尝试着爬取百度页面。今天我们就来看看他的规则是怎样的，应该怎么玩。2,网络爬虫引发的问题2.1,网络爬虫的尺寸有三种尺寸：小、
复制链接

扫一扫