爬虫实战1：网页了解_Allione_新浪博客

最新推荐文章于 2024-11-12 11:28:41 发布

allione

最新推荐文章于 2024-11-12 11:28:41 发布

阅读量79

点赞数

文章标签：网络搜索引擎 sms wordpress 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dsydly/article/details/109659121

版权

1、Robots 协议：

互联网爬虫的一项公认的道德规范，全称是“网络爬虫排除标准（Robots exclusion protocol）”，这个协议用来告诉通用型爬虫，哪些页面是可以抓取的，哪些不可以。好的网络爬虫，首先需要遵守Robots协议。Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

作者：落寒z

链接：https://www.jianshu.com/p/2a1458eb3c23

来源：简书

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。大多数网站都有 Robots 协议，那如何查看网站的 Robots 协议呢？

很简单， 在网站的根目录域名后加上/robots.txt就可以了。例如，通过 https://www.taobao.com/robots.txt 这个链接可以查看淘宝的 Robots 协议。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

allione CSDN认证博客专家 CSDN认证企业博客

码龄12年

205: 原创

6万+: 周排名

180万+: 总排名

7万+: 访问

: 等级

2390: 积分

7: 粉丝

30: 获赞

7: 评论

128: 收藏

私信

关注

热门文章

分类专栏

最新评论

vue中常见知识点区别
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)增加条理清晰的目录。
Junit中使用线程池不执行任务代码
做一个有追求的北漂: 注意到了得让测试方法休息一段时间,我也遇到这个问题,线程池的任务没有执行
Postman访问需要账号密码登入的页面_Allione_新浪博客
ctotalk: thanks,欢迎关注一起交流
环境复制实现_Allione_新浪博客
ctotalk: 感谢分享，学以致用。
vue增加数据导出excel（vue-json-excel）
ZHENQIANG1119: 直接把button放在<download-excel>里面就会出现上面的情况，但是如果将他们分开，先点击button获取数据，再点击<download-excel>就不会出现这样的情况，怎么破

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。