攻防世界学习笔记（Training-WWW-Robots）robots.txt君子协议

原创已于 2023-04-11 18:07:46 修改 · 214 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #python #爬虫

于 2023-03-31 22:43:18 首次发布

攻防世界专栏收录该内容

7 篇文章

订阅专栏

robots.txt是一个文件，用于告诉爬虫哪些页面可以抓取，哪些禁止访问。它包含User-agent定义的爬虫名称，Disallow指定禁止访问的路径，而Allow则是允许的路径。例如，msnbot-media被禁止访问Bing所有页面，而Twitterbot没有限制。*通配符则适用于所有爬虫。遵守robots.txt规则是爬虫的基本礼仪。

robots.txt是网站管理者写给爬虫的一封信，里面描述了网站管理者不希望爬虫做的事，比如：

不要访问某个文件、文件夹
禁止某些爬虫的访问
限制爬虫访问网站的频率

一个自觉且善意的爬虫，应该在抓取网页之前，先阅读robots.txt，了解并执行网站管理者制定的爬虫规则。

如何查看robot.txt

在浏览器的网址搜索栏中，输入网站的根域名，然后再输入/robot.txt。比如，必应的robots.txt网址为

https://cn.bing.com/robots.txt

robots.txt的内容

User-agent: 爬虫的名称

Disallow: 不允许爬虫访问的地址

Allow: 允许爬虫访问的地址

若User-agent是*，则表示对象是所有爬虫。

Disallow和Allow后面跟的是地址，地址的描述格式符合正则表达式(regex)的规则。因此可以在python中使用正则表达式来筛选出可以访问的地址。

下面是来自http://cn.bing.com的一段robots.txt：

User-agent: msnbot-media 
Disallow: /
Allow: /th?

User-agent: Twitterbot
Disallow: 

User-agent: *
Disallow: /account/
Disallow: /amp/

得出结论

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

丸子丸子鱼

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【网络安全 | CTF】攻防世界 Training-WWW-Robots 解题详析

等风来

05-20

6808

在这个小训练挑战中，你将学习 Robots_exclusion_standard（机器人排除标准）。robots.txt 文件是由网络爬虫用来检查是否允许他们爬行和索引你的网站或仅部分内容。

【攻防世界CTF|web方向】第一题：Training-WWW-Robots

weixin_70825534的博客

07-24

906

如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。1.做题技巧层面：有时flag会出现一些相似的变形，比如这道题中的fl0g，不要忽视了。如果您希望搜索引擎收录网站上所有内容，请勿建立 robots.txt文件。3.尝试访问：本题目场景的网页下的robots.txt文件，得到如下界面。，如同守门人无法阻止窃贼等恶意闯入者,是一个类似于君子协议的文件。形式：在网站根目录下的robots.txt文件。的内容时，才需要使用。

参与评论您还未登录，请先登录后发表或查看评论

爬虫君子协议-robots.txt协议

Henrik-Yao的博客

03-01

7093

文章目录一.定义二.用法一.定义 robots协议是一种约定俗称的爬虫协议，由网站主人规定了该网站的哪些内容可以爬取，哪些内容不可以爬取，擅自爬取可能承担相关法律责任。之所以称之为君子协议，是因为防君子不防小人，该协议并没有用技术手段实现反爬，只是一个申明。在网站根目录后输入/robots.txt后即可查看该网站的君子协议例如访问https://www.douban.com/robots.txt可查看豆瓣网站的君子协议查看结果如下 User-agent: * Disallow: /subject_

爬虫的robots.txt(君子协议) 以及 302状态码的演示及其他状态码

weixin_38122129的博客

03-04

1091

一、爬虫是什么？名称：web-crawler (网络爬虫) 或者 spider ，我们学的现在都可以成为python-spider 简介：通过一定的规则（模拟网络请求）自动抓取（采集）互联网上的相关数据，原则上只要网上能够看到的东西，爬虫都可以抓取，可见即可爬。爬虫分类： 1.通用爬虫：类似百度、谷歌、抓取对象是整个互联网 2.垂直爬虫：针对某些特定的网站指定的爬虫。比如今日头条：针对网站抓取；某些小的电商网站：抓取大的电商网站（jd，tb）我们现在工作写的都是些垂直爬虫 robots

蒟蒻的爬虫之旅（Python版）——robots君子协议（转载）

HiphopHarris的博客

11-07

1479

一、robots内容介绍 robots是一个网站对可被爬取内容的规范，之所以被戏称为君子协议，就是说这些规范不能做到技术限制，存在通过特殊手段爬取网页限制数据的行为，但很大程度上可能会因为爬取这些网站的保护数据受到法律制裁。常言道：“爬虫学的好，牢饭管到饱” 。温馨提示：爬虫是个强力的辅助工具，但不要因一己私欲逾越法律的鸿沟。访问robots文件只需在网页后面加上/robots.txt 以https://www.taobao.com为例以下内容转载自这建议前往查看二、robots写法 1、如果允

Python网络爬虫与信息提取 Robots协议+正则表达式

weixin_42764993的博客

08-03

910

京东Robots协议 #'*'代表所有，“/"代表根目录。 User-agent: * #对于任意网络爬虫，应遵循如下协议 Disallow: /?* #任何爬虫不允许访问以“？”开头的路径 Disallow: /pop/*.html Disallow: /pinpai/*.html?* User-agent: EtaoSpider #这四个被认为是恶意爬虫，全部被禁 Disallow:...

【每天学习一点新知识】robots.txt详解

热门推荐

RexHa的博客

10-10

2万+

robots.txt是一个协议,我们可以把它理解为一个网站的"管家",它会告诉搜索引擎哪些页面可以访问,哪些页面不能访问。也可以规定哪些搜索引擎可以访问我们的网站而哪些搜索引擎不能爬取我们网站的信息等等,是网站管理者指定的"君子协议"。本文对robots.txt文件进行解析,也是学习的过程。

Training-WWW-Robots (攻防世界)

HackerYY的博客

12-01

3559

攻防世界Training-WWW-Robots 和之前的题几乎一模一样内附解题过程

攻防世界Training-Stegano-1

10-31

【标题】"攻防世界Training-Stegano-1" 是一个关于信息安全领域的训练题目，主要涉及的是隐写术（Steganography）技术。隐写术是一种隐藏信息的技术，通常用于在图像、音频或文本中嵌入秘密数据，使得非授权者无法...

攻防世界Erik-Baleog-and-Olaf

10-31

攻防世界Erik-Baleog-and-Olaf，misc。此题详细解题博客：https://blog.csdn.net/m0_59188912/article/details/127615829

网络安全小赛

一大口木的博客

10-02

304

例如，file:///path/to/file 表示本地文件系统上的文件，file://hostname/path/to/file 表示远程服务器上的文件。需要注意的是，php://file 只能在 PHP 脚本中使用，而 file:// 则是通用的文件访问协议，可以在各种环境中使用。总结起来，file:// 是通用的文件访问协议，而 php://file 是 PHP 内置的封装协议，提供了更丰富的文件操作功能。题解猜测是文件名字！这样没反应，可能是#%的问题，有两种解决方案，1是url编码，2是*或者?

如何使用robots.txt及其详解

weixin_34059951的博客

04-24

1150

在国内，网站管理者似乎对robots.txt并没有引起多大重视，应一些朋友之请求，今天想通过这篇文章来简单谈一下robots.txt的写作。robots.txt基本介绍robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根...

robots.txt详解

google_SEO_yang的博客

01-09

1万+

怎样查看robots文件？浏览器输入主域名/robots.txt robots.txt的作用 robots.txt 文件规定了搜索引擎抓取工具可以访问网站上的哪些网址，并不禁止搜索引擎将某个网页纳入索引。如果想禁止索引（收录），可以用noindex，或者给网页设置输入密码才能访问(因为如果其他网页通过使用说明性文字指向某个网页，Google 在不访问这个网页的情况下仍能将其网址编入索引/收录这个网页)。 robots.txt 文件主要用于管理流向网站的抓取工具流量，通常用于阻止 Google .

爬取网站前1_解析网站robots.txt文件

Pop_Rain的博客

05-19

5375

使用爬虫爬取数据前，我们需要解析网站robots.txt文件，以避免下载禁止爬取的url。这项工作需要使用python3自带的urllib.robotparser模块 #使用爬虫爬取数据前，我们需要解析网站robots.txt文件 import urllib.robotparser rp = urllib.robotparser.RobotFileParser() rp.set_url("

【第一章】金融数据的获取——金融量化学习入门笔记

qq_46314975的博客

10-29

1052

本文介绍了获取金融数据的四种主流方案，重点推荐了开源工具AKShare。作者对比了免费API、国内大厂接口和国际平台的局限性，最终选择AKShare作为解决方案。文章详细说明了AKShare的安装部署步骤，并以华安黄金ETF(000217)为例，展示了如何获取基金历史净值数据并进行金价换算。通过示例代码，读者可以学习到如何使用AKShare这一免费工具获取本地化的金融数据，为后续量化分析提供基础。

分享几个开源的系统，包括小程序、商城系统、二手交易等常见的系统、很容易进行二次开发【可以参考学习】