爬虫知识点丨“爬虫”的13条合规边界

程序员老冉

于 2024-03-31 15:15:00 发布

阅读量2.1k

点赞数 26

文章标签：爬虫大数据安全 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_82000445/article/details/137114867

版权

本文详细阐述了爬虫的基本概念，强调了爬虫作为技术工具的中立性，并探讨了爬虫的合规风险，主要关注行为边界（遵守网站协议、技术手段和影响）和内容边界（公开程度、敏感信息、知识产权等）。作者给出了评估爬虫风险的框架和建议，包括制作行为和内容清单，以确保合规操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- 01 啥是爬虫
- 02 爬虫本无罪！
- 03 爬虫的行为边界
- 04 爬虫的内容边界
- 05 结语：做个清单吧

01 啥是爬虫

嗯！今天聊爬虫~

爬虫，或者更严谨一点，网络爬虫(Web Crawler/Spider)，通常是指按照一定的规则自动浏览和抓取互联网信息的程序或脚本，它可以通过自动向网站发送系列特定检索指令实现对网站内系列网页信息的浏览和收集。

从类型上来看，爬虫常见的分类包括通用爬虫、聚焦网络爬虫、增量式爬虫。

通用爬虫：搜索引擎获取信息的关键性技术之一就是通用爬虫，搜索引擎利用爬虫技术在网页间建立系统性关联，通过对网页信息的系统性获取，建立起针对这些网页内容的搜索服务；
聚焦爬虫：如果需要在特定网页深度获取特定信息(如某网站的产品种类、商品信息、价格信息、评论信息等特定内容)，则对于此类应用场景需要编写在网页内获取特定信息的爬虫程序，这类爬虫就是所谓的聚焦网络爬虫；
增量式爬虫：增量式爬虫的主要功能是实时监测网站数据更新，判断网站是否有变化，从而爬取网站中最新更新出来的数据。

所以简单总结一下，爬虫其实就是一个程序化的自动看网页和找信息的小工具，是一个技术上完全中立的小工具。

02 爬虫本无罪！

既然只是一个自动浏览网页和收集信息的小工具，爬虫自己能有什么坏心眼呢~

的确如此！作为一个技术上完全中立的小工具，爬虫真的没有什么所谓的“原罪”。

“善意爬虫”在遵守网站的机器人协议(robots.txt)的前提下，对网页或网络公开接口进行爬取并不会影响网站正常运行、不会侵犯网站用户的个人信息和网站的重要数据资源的(如大型搜索引擎运用的通用网络爬虫)，还会因为给相关网站增加流量并因此而受到欢迎。

所以，这是我们在后面讨论爬虫的各种风险之前，一定要先给爬虫做的一个澄清：

爬虫无罪！！！

即使它光是看名字就给人感觉“坏坏的”，并且关于它“干了很多坏事儿”的传闻也不绝于耳，我们还是要开宗明义地说，爬虫只是一个无毒无害的小工具，并没有任何原生的合规风险。

那为啥爬虫还是屡屡惹麻烦？这其实因为它经常被基于错误的方式用于爬取错误的内容。

这也就是爬虫风险的两大核心来源：

使用爬虫的方法不对。常见的表现就是爬得过于“粗暴”和“野蛮”，突破了被爬取对象允许的爬取范围，或者直接对被爬取对象的系统造成了影响或破坏。通过总结这一类风险，我们就能勾勒出“爬虫的行为边界”；
爬虫抓取的内容不对。这种情况就是爬虫抓取了不妥当的信息。不管是商业秘密也好、知识产权也好、个人信息也好，总之就是抓取的内容不对劲，侵权了。通过总结这一类风险，我们就能勾勒出“爬虫的内容边界”。

好了，至此，我们已经把理解和分析爬虫法律风险的全部方法论展示出来了。

沿着“行为”和“内容”两条主线，我们就能清晰地把爬虫合规的13条边界清晰地勾勒给大家。

最低0.47元/天解锁文章

博客等级

码龄1年

340
原创

8353
点赞

9458
收藏

5756
粉丝

关注

私信

热门文章

分类专栏

python 3篇

展开全部收起

上一篇：: python常用快捷键,写代码事半功倍_

下一篇：: Python运行不了，无法运行Python解决办法（超全面）

最新评论

Python爬虫完整代码拿走不谢_python爬虫代码
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/boost_spider 依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html
手把手教你如何用python进行数据分析！（附四个案例）
2401_89486082: 为什么第一个案例有编码错误
python多环境管理工具——pyenv-win安装与使用教程
夏-目: 非常感谢，这个Win11有点坑了
python多环境管理工具——pyenv-win安装与使用教程
红藕香残玉簟秋: 文章里的镜像源不好用了，华为的可以用：https://mirrors.huaweicloud.com/python
python爬各平台评论并数据分析——数据采集、评论情绪分析、新闻热度
userhelen: 分享很有用，但能不能问一下，那个b站爬取的时候，我改了vedio_list text的url，但爬出来的评论是原来的视频链接的评论

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。