网络爬虫项目开发日志（五）: 爬虫协议初探

最新推荐文章于 2024-01-14 21:20:15 发布

qq_33134761

最新推荐文章于 2024-01-14 21:20:15 发布

阅读量1.2k

点赞数

分类专栏：爬虫文章标签：网络爬虫爬虫搜索引擎机器人计算机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33134761/article/details/53186155

版权

本文介绍了网络爬虫中的机器人协议，包括其概念、应用模式和常见实践。通过robots.txt，网站可以设定对搜索引擎的抓取规则，如禁止抓取特定内容或限制抓取速率。然而，robots协议并非强制性，恶意爬虫可能会无视规则，带来安全和效率问题。此外，文章还提及了网站地图、meta标签以及爬虫速率控制等内容。

摘要由CSDN通过智能技术生成

--前言--

常在河边走，哪有不湿鞋

有的时候，网络爬取就像串门一样，如果守规矩的话，是需要先打个电话给主人预约一下，或是进门的时候先敲门看看主人是否在家，如果主人允许咱进去，咱再进去，进去后，也不要东摸摸西看看，否则主人是会发飙了，搞不好就会逐客了。

--概念--

网络爬取领域，也是一样的，也有着通用的规范，称之为机器人协议，这是一个面向计算机网络搜索引擎的，以Robots命名的文本文档，一般都会放在网站的根目录下，可以直接访问到的。

--应用模式--

应用模式，此文讨论的主要是围绕ICP（网络内容提供商）和搜索引擎（爬虫程序）之间的双向行为模式。

1) ICP通过“爬虫协议“排除特定信息显示于搜索结果，即：ICP通过爬虫协议禁止搜索引擎将该网站上部分信息被罗列在搜索结果中，但实际上我们还是可以通过别的方式来访问或获取这些信息的。

2） ICP通过“爬虫协议”排除特定搜索引擎，即：爬虫协议作

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。