python网络爬虫与信息提取——2.网络爬虫排除标准robots

最新推荐文章于 2023-10-17 19:41:37 发布

babi4202

最新推荐文章于 2023-10-17 19:41:37 发布

阅读量172

点赞数

文章标签：爬虫 python php

原文链接：http://www.cnblogs.com/Wang-Y/p/8473995.html

版权

1.爬虫尺寸

小规模，数据量小，爬取速度不敏感，Requests库，爬取网页
中规模，数据规模较大，爬取速度敏感，Scrapy库，爬取网站
大规模，搜索引擎，爬取速度关键，定制开发，爬取全网

2.引发问题：性能骚扰，法律风险，隐私泄露

3.爬虫限制

来源审查：判断User‐Agent进行限制
检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问
发布公告：Robots协议
告知所有爬虫网站的爬取策略，要求爬虫遵守

4.robots协议

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
形式：在网站根目录下的robots.txt文件

基本语法：

# 注释，*代表所有，/代表根目录
User‐agent: *
Disallow: /

（1）.User-agent 定义搜索引擎。

（2）.Disallow 禁止爬取

（3）.Allow 允许。

（4）.$ 结束符。例：Disallow: .php$ 这句话的意思是，屏蔽所有的以.php结尾的文件，不管前面有多长的URL

（5）.* 通配符符号0或多个任意字符。

（6）.sitemap：这个告诉搜索引擎你的sitemap在哪

转载于:https://www.cnblogs.com/Wang-Y/p/8473995.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫与信息提取——2.网络爬虫排除标准robots

1.爬虫尺寸小规模，数据量小，爬取速度不敏感，Requests库，爬取网页中规模，数据规模较大，爬取速度敏感，Scrapy库，爬取网站大规模，搜索引擎，爬取速度关键，定制开发，爬取全网2.引发问题：性能骚扰，法律风险，隐私泄露3.爬虫限制来源审查：判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问发布公告：Rob...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。