规则：网络爬虫的“盗亦有道”

最新推荐文章于 2024-09-18 20:39:31 发布

是星子吖

最新推荐文章于 2024-09-18 20:39:31 发布

阅读量261

点赞数

分类专栏： Python网络爬虫与信息提取文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46844351/article/details/109683710

版权

Python网络爬虫与信息提取专栏收录该内容

6 篇文章 0 订阅

订阅专栏

网络爬虫引发的问题

网络爬虫的尺寸

爬取网页玩转网页

小规模，数据量小
爬取速度不敏感
Requests库

爬取网站爬取系列网站

中规模，数据规模较大
爬取速度敏感
Scrapy库

爬取全网

大规模，搜索引擎
爬取速度关键
定制开发

网络爬虫的“性能骚扰”

Wed服务器默认接收人类访问

受限于编写水平和目的，网络爬虫将会为Wed服务器带来巨大的资源开销

网络爬虫的法律风险

服务器上的数据有产权归属

网络爬虫获取数据后牟利将带来法律风险

网络爬虫的隐私泄露

网络爬虫可能具备突破简单访问控制的能力，获得被保护数据而泄露个人隐私

网络爬虫引发的问题

性能骚扰

法律风险

隐私泄露

网络爬虫的限制

来源审查：判断User—Agent进行限制

检查来访HTTP协议头的User—Agent域，只响应浏览器或好友爬虫的访问

发布公告：Robots协议

告知所有爬虫网站的爬取策略，要求爬虫遵守

Robots协议

Robots Exclusion Standard，网络爬虫排除标准

作用：

网站告知网络爬虫哪些页面可以爬取，哪些不行

形式：

在网站根目录下的robots.txt文件

案例：京东的Robots协议

http://www.jd.com/robots.txt

Robots协议的遵守方式

Robots协议的使用

网络爬虫：

自动或人工识别robots.txt，再进行内容爬取

约束性：

Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

对Robots协议的理解

爬取网页玩转网页

访问量很小：可以遵守

访问量很大：建议遵守

爬取网站爬取系列网站

非商业且偶尔：建议遵守

商业利益：必须遵守

爬取全网

必须遵守

原则：类人行为可不参考Robots协议

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

是星子吖 CSDN认证博客专家 CSDN认证企业博客

码龄4年

37: 原创

39万+: 周排名

203万+: 总排名

7万+: 访问

: 等级

596: 积分

94: 粉丝

61: 获赞

15: 评论

410: 收藏

私信

关注

热门文章

分类专栏

最新评论

IDEA or PyCharm占用C盘空间太大怎么办？那就从C盘转移到D盘吧
我是嘉心糖: 破解的当场失效了
【数字电路逻辑设计】第1章基本知识
做而论道_CS: －1，所对应的二进制数，是 1111。－2，所对应的二进制数，是 1110。 ... －X，对应的是什么呢？可以用二进制计算 “0－X”，即可得出结果。如：　0000－0001 = (借位 1) 1111。　0000－0010 = (借位 1) 1110。 ... 舍弃借位，保留四位，就可以了。这就是计算机专业所说的 “补码”。求补码，就是这么简单：0－X。原码反码符号位取反加一，都是用不着的。在计算机中，只用补码，并没有原码和反码。那么，《数字逻辑》中，就更应该没有原码反码了。老师讲课，为什么讲这些没用的东西？就是混饭吃吧！从小到大，在学校里学的垃圾，数不胜数。。。
【数字电路逻辑设计】第1章基本知识
做而论道_CS: 数字电路中，并没有 “原码反码补码” 这种概念。只是受到计算机专业的蛊惑，近年来才引入了这些垃圾。在数字电路中，有：　与门或门非门、加法器触发器计数器存储器等。计数器，有 “递增、递减” 计数的功能。递增计数，就是从 0000 到 1111 依次加一。在 1111 再加一，就又回到了 0000，循环计数。那么，从 0000 减一，就是 1111。　　这就是代表－1 了。再减一，就是 1110，当然就代表－2 了。。。。同理，给加法器，加上 1111，就相当于－1。加上 1110，就相当于－2。这些二进制数，就是所谓的 “补码” 了。但是，这些负数的二进制，是自然生成的。并非是用 “符号位原码取反加一” 定义出来的。明明是自然出现的，计算机专家竟敢说这是他们定义的！真没见过如此厚颜无耻之人！
Python列表奇偶拆分
是星子吖: 随意分享一下而已，很久之前的咯
Python列表奇偶拆分
qq_39054053: 怎么开始教Python了吗去年还是java

大家在看

Spring源码学习：SpringMVC（2）DispatcherServlet初始化【子容器&9大组件】 637

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。