二、网络爬虫的“盗亦有道”

最新推荐文章于 2022-04-14 14:45:57 发布

miania

最新推荐文章于 2022-04-14 14:45:57 发布

阅读量207

点赞数

分类专栏： python网络爬虫与信息提取文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miania/article/details/105373629

版权

python网络爬虫与信息提取专栏收录该内容

4 篇文章 0 订阅

订阅专栏

（一）网络爬虫引发的问题
1.网络爬虫的尺寸
爬取网页小爬取速度不敏感 requests库 ≥90%
爬取网站中爬取速度敏感 scrapy库
爬取全网大爬取速度关键定制开发
2.网络爬虫的“骚扰”
网站的骚扰问题：受限于编写水平和目的，网络爬虫将会为web服务器带来巨大的资源开销。
内容的法律风险：服务器上的数据产权归属；用于牟利
个人的隐私泄露：具备突破能力
3.限制网络爬虫
来源审查：判断User_Agent进行限制（对维护网站人员技术能力要求）
发布公告：robots协议
（二）robots协议
1.robots exclusion standard 网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以抓取，那些不行。
形式：在网站根目录下的robots.txt文件。
案例：http://www.jd.com/robots.txt
2.robots协议基本语法
user_agent: * 哪些爬虫
disallow: / 不允许访问目录
（三）robots协议的遵守方式
1.robots协议的使用
网络爬虫约束性，建议遵守。
若类人访问，可不遵守。
（四）单元小结
robots协议基本语法
user_agent: * 哪些爬虫
disallow: / 不允许访问目录
网络爬虫约束性，建议遵守。
若类人访问，可不遵守。不可进行商业用途。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
二、网络爬虫的“盗亦有道”

（一）网络爬虫引发的问题1.网络爬虫的尺寸爬取网页小爬取速度不敏感 requests库 ≥90%爬取网站中爬取速度敏感 scrapy库爬取全网大爬取速度关键定制开发2.网络爬虫的“骚扰”网站的骚扰问题：受限于编写水平和目的，网络爬虫将会为web服务器带来巨大的资源开销。内容的法律风险：服务器上的数据产权归属；用于牟利个人的隐私泄露...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。