爬虫之——Robots协议

最新推荐文章于 2024-04-26 17:49:12 发布

啊哈是小西瓜

最新推荐文章于 2024-04-26 17:49:12 发布

阅读量495

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/m0_47172421/article/details/105665121

版权

Robots协议

（Robots Exclusion Standard：网络爬虫排除标准）

一、介绍

1.作用：网页告知爬虫哪些能爬取，哪些不能

网站限制爬虫的方法：

审查来源；
通过robots协议来告知。

形式*：存储在网站根目录下的robots.txt文件中。

2.Robots协议的基本语法

User-agent: *
Disaloow: /

3.一些Robots协议的链接

http://www.baidu.com/robots.txt
http://www.baidu.com/robots.txt
http://news.sina.com.cn/robots.txt
http://www.qq.com/robots.txt
http://news.qq.com/robots.txt

4.注意事项

robots协议一定要放到网站的根目录下！！！如果没有robots文件则该网站允许所有爬虫无限制地访问、爬取其内容。

二、Robots协议的遵守方式

Robots协议的使用

网络爬虫：自动或人工识别robot.txt文件再进行内容爬取。
约束性：Robots协议是建议但是非约束性，爬虫可以不遵守，但是存在法律风险！

小编有话说：爬虫虽带劲，请记得遵守Robots协议哦。本篇文章为视频https://www.bilibili.com/video/BV1NW411V7CQ?p=10的学习笔记

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

啊哈是小西瓜

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

网络爬虫的robots协议

NY_YN的博客

12-22

590

网络爬虫的尺寸种类尺寸适用库爬取网页玩转网页小规模，数据量小，爬取速度不敏感 request库爬取网页爬取系列网页中规模，数据量较大，爬取速度敏感 Scrapy 爬取全网大规模，搜索引擎，爬取速度关键定制开发网络爬虫引发的问题： 1.服务器性能骚扰问题：受限于便携水平和目的，网络爬虫将会为web服务器带来巨大的资源开销 2.内容层面法律风险：服务器上的数据有产权所有，网络爬虫获取数据后牟利将带来法律风险 3.个人隐私泄露风险：网络爬虫可能具备简单访问控制的

一种国际互联网界通行的道德规范——Robots协议

qq_59723238的博客

12-26

649

原则： 1搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权； 2网站有义务保护其使用者的个人信息和隐私不被侵犯。 robots协议(也称爬虫协议，机器人协议等)是一种存放于网站根目录下的文本文件，（在一网页中，在网页的URL（即网址）后加上/robots.txt,即可查看）如下图（了解）通常告诉网络爬虫，此网站中的哪些内容是不应被网络爬虫获取的，哪些是可以被获取的。 robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。接下来，我从上图截取第一.

参与评论您还未登录，请先登录后发表或查看评论

什么样的爬虫才是好爬虫：Robots协议探究

weixin_34038652的博客

08-18

169

网站的管理者们通常会有这样一种心态：一方面期待百度、Google这样的搜索引擎来抓取网站的内容，另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息。正是因为这样，才有“好爬虫”、“坏爬虫”这样的说法。提到“好爬虫”，就不得不提网络爬虫与web之间的访问授权协议——Robots协议了。 Robots协议的定义 Robots协议（也称为爬...

玩转robots协议

Freda的专栏

07-17

783

2013年2月8日北京市第一中级人民法院正式受理了百度诉奇虎360违反“Robots协议”抓取、复制其网站内容的不正当竞争行为一案，索赔金额高达一亿元，这可以看做2012年下半年“3B大战”的继续。在此次索赔案件中，百度称自己的Robots文本中已设定不允许360爬虫进入，而360的爬虫依然对“百度知道”、“百度百科”等百度网站内容进行抓取。其实早在2012年11月初，针对双方摩擦加剧的情况，

给常用的爬虫用的robot.txt

weixin_34194317的博客

11-14

365

为什么80%的码农都做不了架构师？>>> ...

Robots协议小记

小喽喽

11-13

187

Robots 简介 robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件，该协议仅约定俗成，道德约束，无法律效益和实质性的安全意义举例 User-agent: Baiduspider Disallow: /baidu Disallow: /s? Disallow: /ulink? ...

深度解析Robots协议：合规爬取网站数据的最佳实践

牛肉胡辣汤

03-16

4401

Robots协议是一个位于网站根目录下的robots.txt文件，用来指示搜索引擎爬虫哪些页面可以访问，哪些页面禁止访问。通过遵守Robots协议，可以有效地控制搜索引擎爬虫的抓取行为，维护网站的合法权益。合规爬取网站数据是每一个网络爬虫开发者应当遵守的基本原则。通过遵守Robots协议、设置合理的访问间隔、避免对服务器造成过大负担，可以更好地保护网络生态的健康发展。希望本文对您了解Robots协议的重要性以及合规爬取网站数据的最佳实践有所帮助。

robots协议简单介绍

小白的劝退之路

12-05

690

emem,整篇转发有点复杂，就放个链接吧！ robots协议详解

Java爬虫入门——使用Jsoup解析HTML页面.zip

03-08

遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...

【图文详解】python爬虫实战——5分钟做个图片自动下载器.zip

03-01

Python爬虫——爬虫是什么都可以爬的吗？Robots协议！

菜鸟的后花园

07-08

6121

Python爬虫——爬虫是什么都可以爬的吗？初识“爬虫”这个词时，想必大家都会和我一样，认为“爬虫”就是爬取网站上的各种内容，可以抓取网站的信息为我们所用。但事实并不是这么“简单” 也并不是网站上的所有内容你想爬就爬在爬虫界有一种叫Robots协议来限制爬虫的范围。 Robots协议 Robots协议全程“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不...

robots协议相关知识（摘转自360百科）

renyuzhu1111的博客

11-06

1519

1. 基本概念 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式，用来指导搜索引擎更好地抓取网站内容，而不是作为搜索引擎之间互相限制和不正当竞争的工具。当一个搜索蜘蛛访问一个站点时，它会...

网络爬虫引发的问题及robots协议说明

qq_44004117的博客

03-05

729

1、骚扰问题网络爬虫会占用网站服务器资源。 2、法律风险根据robots协议网页里的某些信息是不能被爬取的，否则将产生法律风险。 3、隐私泄露网络爬虫可以获得用户设置的密码信息，这样个人隐私就存在被泄露的风险。总结：在进行网络爬虫时，我们有必要了解网站的robots协议，如： https://www.jd.com/robots.txt 上图中* 表示对所有的访问者。...

爬虫Robots协议

zhangke0426的博客

02-23

1185

人生苦短，我用python！

爬虫学习——Robots协议和 robotparser模块

热爱编程的你我

03-26

1699

你知道嘛？不加节制的爬虫可能是犯法的，为了做个遵纪守法的好公民，你需要知道robots协议和robotparser模块

使用Robots.txt引导百度爬虫合理分配抓取资源

c3212254的博客

06-20

1329

我所在的网站算是一个大型网站，百度收录3000万，每天百度爬虫抓取总次数在500w次左右，单页的百度收录率 80%，看起来已经是一个相当不错的数据，但分析一下详细的日志文件，还是可以发现一些问题，　　1.大型网站的列表页为了方便用户查找所需信息，通常会设置多重的筛选条件（Facet Navigation），但爬虫并没有智能到可以自主判断哪些条件可以组合，哪些条件组合起来没有意义，只要在代码里面有链...

网络爬虫-Robots协议

Python_1981的博客

10-29

884

2、案例：京东的Robots协议。三、Robots协议的基本语法。四、Robots协议的遵守方式。2、对Robots协议的理解。1、Robots协议的使用。

# 查看bilibili的robots协议

房东的jian的博客

02-22

2076

import requests def GetRobotsHtml(url): try: result = requests.get(url) result.raise_for_status() result.encoding = result.apparent_encoding return result.text ...

【大纲】网络爬虫前瞻