python爬虫之盗亦有道

最新推荐文章于 2022-10-31 22:30:06 发布

小熊最可爱

最新推荐文章于 2022-10-31 22:30:06 发布

阅读量156

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c15336023/article/details/115313402

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文探讨了网络爬虫在不同规模下的应用，从简单的Requests到复杂的Scrapy和定制开发。爬虫可能对服务器造成负担，触及法律风险，如侵犯产权和隐私。Robots协议作为非强制性规范，提醒爬虫开发者尊重网站规则。同时，遵守法律和道德规范在网络爬虫的使用中至关重要。

摘要由CSDN通过智能技术生成

2.网络爬虫的“盗亦有道”

网络爬虫的尺寸：

小规模，数据量小；爬取速度不敏感；Requests库	中规模，数据规模较大；爬取速度敏感；Scrapy库	大规模，搜索引擎；爬取速度关键；定制开发
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

网络爬虫的“骚扰”：受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销。

网络爬虫的法律风险：服务器上的数据有产权归属；网络爬虫获取数据后牟利将带来法律风险。

网络爬虫泄露隐私：网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私。

网络爬虫的限制：

1.来源审查：判断User-Agent进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。

2.发布公告：Robots协议

告知所有爬虫网站的爬取策略，要求爬虫遵守。

Robots协议：Robots Exclusion Standard 网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。

形式：在网站根目录下的robots.txt文件。

Robots协议的使用：

网络爬虫：自动或人工识别robots.txt，再进行内容爬取

约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但是存在法律风险

类人行为可不参考Robots协议，但不能用于商业用途。

小熊最可爱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之盗亦有道

2.网络爬虫的“盗亦有道”网络爬虫的尺寸：小规模，数据量小；爬取速度不敏感；Requests库中规模，数据规模较大；爬取速度敏感；Scrapy库大规模，搜索引擎；爬取速度关键；定制开发爬取网页玩转网页爬取网站爬取系列网站爬取全网网络爬虫的“骚扰”：受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销。网络爬虫的法律风险：服务器上的数据有产权归属；网络爬虫获取数据后牟利将带来法律风险。网络爬虫泄露隐私：网络爬虫可能具备突.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。