使用网络爬虫需要知道的准则——robots协议

最新推荐文章于 2024-08-05 13:11:15 发布

zield

最新推荐文章于 2024-08-05 13:11:15 发布

阅读量4.2k

点赞数 3

文章标签： Python WebCrawler

本文链接：https://blog.csdn.net/Abgler/article/details/80038031

版权

前言

因为网络爬虫可从服务器爬取各种内容，所以可能存在涉及个人隐私或商业机密的内容，给使用者和服务器管理者带来不必要的困扰与纠纷，所以需要robots协议来对其进行规范。

正文

有些企业的服务器设置有对特定爬虫的拦截功能，但并不是所有企业均有能力设置和管理对爬虫进行拦截的功能，所以robots协议便诞生了。

此协议告知了爬虫爬取该网站时应遵循的准则，并详细说明了何种爬虫禁止爬取何种网页。

我们可以在相关网站主页后添加/robots.txt来查看该网站的robots协议。

以新浪新闻和百度robots协议的部分内容为例：

User-agent后的*代表了以下内容适用于所有种类的爬虫，Disallow后则列出了禁止爬取的内容，如/wap/即为wap页面下的所有内容及其后续内容都禁止爬取（可理解为url链接中出现此字段的内容均禁止爬取）。

而百度的robots则具体到了特定爬虫，详细列出了Googlebot和MSNBot等爬虫禁止爬取的内容。

需要知道robots协议只是一种约定而不是必须强制遵守的协议，爬虫使用者也可不遵守此协议的内容而对网页相关内容进行爬取，但由此可能引发法律纠纷等严重的问题。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zield

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬虫使用规范

m0_62036306的博客

11-20

995

文章目录前言目前现状爬虫定义爬虫分类原理robots自述robots协议查看常见爬虫名称网络爬虫法规爬虫违法案例前言在如今的大数据时代任何地方程序的运行以及人工智能的训练等都脱离不了大量数据的需求，而目前的大数据交易平台比如（贵阳大数据交易所）等，在多数时候无法满足我们数据需求时，或者购买数据的消费大于聘请爬虫工程师时企业就会聘请爬虫工程师开发爬虫程序爬取企业所需数据，接下来就来谈谈爬虫到底会不会入狱目前现状目前由于大数据时代的井喷式发展，数据的规模越来越庞大，我们对于大量数据的依赖也是必不可少的。

python网络爬虫与信息提取（四）Robots协议

ZuoGanYi的博客

05-12

2520

绪论网络爬虫引发的问题1、网络爬虫的尺寸爬取网页 Requests库爬取网站 Scrapy库爬取全网建立搜索引擎2、网络爬虫引发的问题1.服务器性能骚扰2.法律风险3.泄露隐私3、网络爬虫的限制来源审查：判断User-Agent进行限制检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问发布公告：告知所有爬虫网站的爬取策略，要求爬虫遵守。一、Ro...

参与评论您还未登录，请先登录后发表或查看评论

无涯教程-robots协议文件

热门推荐

date3_3_1kbaicai的博客

07-14

1万+

网易云音乐爬虫，以python代码中execjs模块进行爬取，对细节进行具体的分析。

python网络爬虫与信息提取嵩天百度网盘_基于MOOC嵩天《Python网络爬虫与信息提取》视频学习记录——第一周：requests库...

weixin_36202642的博客

12-28

1331

1.requests库入门requests的get( )方法爬取百度网页实例：import requestsr = requests.get("http://www.baidu.com")print(r.status_code)r.enconding = 'utf-8'print(r.text)爬取结果：requests库的七个主要方法requsets对象的属性理解requests的编码理解req...

py源码实例Python爬虫爬取会计师协会网站的指定文章

04-20

在当前的大数据时代背景下，网络爬虫技术已经成为获取互联网公开数据的重要手段之一。本文将基于一个具体的案例——爬取会计师协会网站上的指定文章，来探讨如何利用Python语言实现这一目标。此案例不仅涉及了Python...

本科毕业设计《基于Android的新闻推荐客户端设计与实现》新闻Python爬虫相关代码.zip

10-05

同时，理解反爬策略和遵守网站的robots.txt规则也是爬虫开发的重要伦理准则。三、数据处理与存储抓取到的新闻数据需要进行清洗、处理和存储。Python中的pandas库可用于数据清洗和分析，而数据库管理系统如SQLite...

python爬虫入门（一）

weixin_45095288的博客

02-17

337

浏览器的工作原理：客户端、浏览器、服务器之间的关系如上图爬虫的工作原理获取数据：根据我们提供的网址，向服务器发起请求，然后返回数据。解析数据：爬虫程序会把服务器返回的数据解析成我们能读懂的格式。提取数据：爬虫程序再从中提取出我们需要的数据。储存数据：爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。入门第一步【requests库】我们将会利用一个强大的库——reque...

如何查看一个网站的robots协议？

wanjialin的博客

04-12

9936

问：如何查看一个网站的robots协议？答：在该网站首页网址后加入/robots.txt就可以查看该网站的robots协议。例：以淘宝网站为例。首先进入淘宝网站首页在网站后输入/robots.txt就可以查看了。 ...

Python爬虫——爬虫是什么都可以爬的吗？Robots协议！

菜鸟的后花园

07-08

6122

Python爬虫——爬虫是什么都可以爬的吗？初识“爬虫”这个词时，想必大家都会和我一样，认为“爬虫”就是爬取网站上的各种内容，可以抓取网站的信息为我们所用。但事实并不是这么“简单” 也并不是网站上的所有内容你想爬就爬在爬虫界有一种叫Robots协议来限制爬虫的范围。 Robots协议 Robots协议全程“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不...

如何查看robots协议？怎么写？

weixin_43854793的博客

10-08

3842

对于seo来讲，robots文件非常重要。搜索引擎爬虫爬取的网站的第一个文件便是这个文件，这个文件告诉搜索引擎网站的那些内容可以被爬取，那些内容不能被爬取，或者说禁止爬取。怎么查看robots协议？可以使用这种办法，主域名/robots.txt。怎么写robots协议？当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。一、什么是Rob

看了关于robots协议的相关解释和用法

04-27

1154

什么是robots.txt文件? 搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。robots>

谷歌推网页爬虫新标准，开源robots.txt解析器

量子位

07-03

256

鱼羊发自凹非寺量子位报道 | 公众号 QbitAI对于接触过网络爬虫的人来说 robots.txt 绝不陌生，这一存放于网站根目录下的 ASCII 码文件标明了网...

python爬虫基础（十）分析Robots协议

2303_77841383的博客

06-14

2679

利用urllib的robotparser，我们可以实现网站Robots协议的分析。

Robots协议

weixin_30627341的博客

04-12

118

1 一般对爬虫的限制　　爬虫会造成问题　　　　对网站服务器的骚扰　　　　可能会引起法律问题　　　　而且可能由于爬虫具有一定的突破性, 可能获取一些平常不能获取到的数据造成隐私泄露　　一般对爬虫限制的两个方法　　　　1) 来源审查, 判断User-Agent进行限制　　　　　　具体来说就是根据HTTP来访的协议头中的User-Agent 　　　　2) robots协议 ...

玩转robots协议

Freda的专栏

07-17

783

2013年2月8日北京市第一中级人民法院正式受理了百度诉奇虎360违反“Robots协议”抓取、复制其网站内容的不正当竞争行为一案，索赔金额高达一亿元，这可以看做2012年下半年“3B大战”的继续。在此次索赔案件中，百度称自己的Robots文本中已设定不允许360爬虫进入，而360的爬虫依然对“百度知道”、“百度百科”等百度网站内容进行抓取。其实早在2012年11月初，针对双方摩擦加剧的情况，

网络爬虫的合法性探讨：Robots协议与法规边界

网络爬虫的合法性需要综合考虑其使用目的、是否遵守Robots协议以及相关法律法规。作为爬虫开发者，不仅要有技术知识，更需要了解并尊重这些道德和法律边界，以确保活动的合法性，避免潜在的法律风险。同时，定期更新...