Python爬虫学习：Robots协议（分析网站结构）

最新推荐文章于 2024-10-26 10:59:53 发布

南淮北安

最新推荐文章于 2024-10-26 10:59:53 发布

阅读量1.1k

点赞数

分类专栏： Python 爬虫学习文章标签： Robots协议

本文链接：https://blog.csdn.net/nanhuaibeian/article/details/86590824

版权

Python 爬虫学习专栏收录该内容

58 篇文章

订阅专栏

1. Robots协议

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有的页面。

2. 样例

在这里插入图片描述

User-agent：描述了搜索爬虫的名称，例如User-agent: Baiduspider表示只对百度爬虫有效
Disallow：指定了不允许抓取的目录
Allow：允许抓取的目录

允许所有爬虫访问任何目录代码：

User-name:*
Disallow:

禁止所有爬虫访问任何目录代码：

User-name:*
Disallow:/

3.常见爬虫的名称

爬虫名称	名称	网站
BaiduSpider	百度	www.baidu.com
Googlebot	谷歌	www.google.com
360Spider	360搜索	www.so.com
YodaoBot	有道	www.youdao.com
ia_archiver	Alexa	www.alexa.cn
Scooter	altavista	www.altavista.com

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

南淮北安

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Python爬虫编程思想（16）：Robots协议（不了解这个就是面向监狱编程了）

一个被知识诅咒的人

09-01

447

目录 1. Robots协议简介 2. 分析Robots协议本问会介绍什么是Robots协议，以及如何用Robots协议规范爬虫的行为。 1. Robots协议简介 Robots协议也称作爬虫协议、机器人协议，它的全名是网络爬虫排除标准（Robots Exclusing Protocol），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。该协议的内容通常放在一个名为robots.txt的文本文件中，该文件一般位于网站的根目录下。 ...

Python爬虫图片：从入门到精通

小相探索IT世界

08-17

3183

爬虫（Web Crawler 或 Spider）是一种自动浏览网络的程序，它按照一定的算法顺序访问网页，抓取网页上的信息。图片爬虫是网络爬虫的一种特殊形式，专注于从互联网上抓取图片资源。与文本数据爬虫相比，图片爬虫在技术上有一些独特的考量和挑战。图片爬虫是一种自动下载网页中图片的程序，它可以识别图片链接并将其保存到本地或云存储中。是一个用于解析HTML和XML文档的库，它能够从复杂的HTML文档中提取数据。

参与评论您还未登录，请先登录后发表或查看评论

Python:查看robots协议

老张的博客

04-07

3977

Robots协议： Robots Exclusion Standard(网络爬虫排除标准) 作用：网站告知可以爬取的页面，不能爬取的页面位置：网站根目录下的robots.txt文件中查看：在地址栏中输入/robots.txt查看以csdn为例： https://www.csdn.net/robots.txt *代表所有，/代表根目录 User-agent: * 表示：无论什么爬虫，都应该遵守这个协议。 Disallow: 表示不允许。即任何爬虫都不允许爬取/s..

Python--爬虫之读懂网页结构HTML

weixin_30538029的博客

06-02

183

1、服务器与本地交换机制　　当你打开一个网址时就是你对服务器的请求，你看到的页面信息就是服务器返回给你的数据. 2、什么是HTML 　　HTML就是用来描述网页的一种语言　　HTML指的是超文本标记语言（Hyper Text Markup Language）　　HTML不是一种编程语言，而是一种标记语言（Markup Language）标记语言是一套标记标签（markup ...

Python 爬虫 Robots协议

ccccrj博客

02-27

248

不同类型的爬虫 Robots协议告知哪些页面可以爬取哪些不可以查看网站下的robots.txt 协议放在网站的根目录下自动或人工识别robots协议

Python爬虫之分析Robots协议

偷吃了老鼠的土豆

03-22

889

1. Robots协议 Robots协议是用来告诉搜索引擎那些网页是可以爬取的，哪些是不行的。搜索爬虫访问一个站点时，它首先会检查这个站点根目录下是否存在robots.txt文件，如果存在，搜索爬虫会根据其中定义的爬取范围来爬取。如果没有找到这个文件，搜索爬虫便会访问所有可直接访问的页面。一般形式： User-agent: * Disallow: / Allow: /public/ ...

Python爬虫实战：抓取商品价格信息

最新发布

02-20

在进行实际的爬虫编码之前，我们还需要了解一些网络爬虫的基本规范，例如robots.txt协议。该协议定义了哪些内容是允许爬虫访问的，哪些内容是禁止爬虫访问的。在设计爬虫时，我们应当遵循这些规范，尊重网站的爬虫...

Python爬虫学习：知乎爬取案例分析

Python爬虫学习代码的知识点涵盖了使用Python编程语言进行网络爬虫开发的基本原理、技术方法以及实际应用案例。...通过Python爬虫学习，我们不仅能够获得数据处理的能力，还可以进一步深入到数据挖掘和分析等领域。

python爬虫：Python 爬虫知识大全《word文档》

12-05

Python爬虫是网络数据采集的重要工具，它能够自动访问互联网，抓取网页内容并提取有价值的信息。...对于想要学习网络爬虫技术的开发者来说，掌握Python爬虫的基础知识和高级应用是进入这一领域的关键。

python爬虫：Python 爬虫知识大全（word文档）

12-05

学习Python爬虫对于数据分析师、网络工程师以及科研人员等都是极其有益的。 Python爬虫知识大全的Word文档，应该是对Python爬虫技术的一个全面性介绍，内容可能包括爬虫的基础概念、工作原理、常用的库和框架、数据...

python robotparser，爬取知乎的robots.txt

微信公众号：码奋

07-24

2504

利用 urllib.robotparser 模块可以对网站的 Robots 协议进行分析 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。robots.txt文件是一个文本文件，放在站点的根目录下。当一个搜索蜘蛛访问一个站点时，它会首先检...

python读取robot文件内容_Python robotparser 网络蜘蛛robots.txt搜索访问控制

weixin_39723678的博客

11-26

475

robotparser是一个专门用来解析网站的robots.txt文本文件的Python模块。robotparser支持Python2.1.3之后版本，建议大家安装Python2.7.5版本。robotparser为robots.txt文件实现了一个解释器，可以用来读取robots文本的格式和内容，用函数方法检查给定的User-Agent是否可以访问相应的网站资源。如果要编写一个网络蜘蛛，这个模块...

python之robots协议

Richard_666的博客

02-13

252

python网页解析 robots文件说明

有勇气的牛排博客

04-16

762

Python 的内置标准库、执行速度适中、文档容错能力强 Python 2.7.3 or 3.2.2) 前的版本中文容错能力差。最好的容错性、以浏览器的方式解析文档、生成 HTML5 格式的文档速度慢、不依赖外部扩展。：用来告诉搜索引擎抓取我们网站的网站地图Sitemap.xml文件的位置。速度快、唯一支持 XML 的解析器需要安装 C 语言库。速度快、文档容错能力强需要安装 C 语言库。：是用来指定搜索引擎的，一般写。：禁止抓取，不允许被收录。：允许抓取，可以被收录。

Pyhton基础篇：robots检测插件编写

m0_75129356的博客

10-26

504

例如，百度的robots文件访问网站是：[baidu.com/robots.txt](https://www.baidu.com/robots.txt)可以检测我们是否符合网站的规范，如果在禁用列表，禁止爬该网站，保证爬虫的安全。print("网站禁止你爬取")# d对网站进行切分，取出网站主页。在网站后缀加上“robots.txt”# 执行URL更新函数。# 存储robots。# 读取robots。# robots检测插件编写。如何查看网站robots。

Python爬虫（三）——Robots协议

swhite_zhang

02-02

657

Python爬虫（三）——Robots协议 Robots协议全称为Robots Exclusion Standard，网络爬虫排除标准。它的作用是告知网络爬虫哪些可以抓取哪些不可以。通常被放在网站根目录下的robots.txt。注：并不是所有网站都有Robots协议，如果没有默认为内容都可以爬取。基本语法 #*代表所有，/代表根目录 User-agent:* Disallow:/ User...

python网络爬虫与信息提取（四）Robots协议

ZuoGanYi的博客

05-12

2634

绪论网络爬虫引发的问题1、网络爬虫的尺寸爬取网页 Requests库爬取网站 Scrapy库爬取全网建立搜索引擎2、网络爬虫引发的问题1.服务器性能骚扰2.法律风险3.泄露隐私3、网络爬虫的限制来源审查：判断User-Agent进行限制检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问发布公告：告知所有爬虫网站的爬取策略，要求爬虫遵守。一、Ro...

python网络爬虫——robots协议

LOG_IN_ME的博客

08-22

1841

Robots协议的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），它的功能是通过Robots文件告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，抓取的标准等。它以一个文本文件的形式放在网站的根目录中。想要访问一个网站的robots协议，在其网页链接后添加 /robots.txt 访问即可，如果一个站点没有robots,txt文件，则说明其上所有数据皆可爬取。 ...

Python3爬虫篇之robots.txt

爱喝水的qdy的博客

11-29

1084

目录借鉴源robots.txt简介robots.txt作用Robots的语法（三个语法和两个通配符）三个语法两个通配符robots.txt 综合示例注意事项关于meta标签关于 rel="nofollow" 借鉴源 https://blog.csdn.net/fanghua_vip/article/details/79535639 https://blog.csdn.net/aa3236925/...