难度:1
方向:Web
题目描述: X老师上课讲了Robots协议,小宁同学却上课打了瞌睡,赶紧来教教小宁Robots协议是什么吧。
一. 题干界面
进来发现后什么都没有,就是一片空白
二. 本人思路
- 首先这个题目考察的是robots协议,robots协议是爬虫里面的一个君子协议,里面规定了哪一些数据是不可以被爬取的,存放了一些信息,但按照习惯,我的思路是先查看源代码,看看有没有什么其他线索。
- 查看源代码后提示flag不在此处,因为确实是不可能这么简单,考察的是robots协议,那什么是robots协议呢
robots.txt 协议是一种用于指导搜索引擎爬虫(Web 爬虫)访问网站的标准。该协议通常位于网站的根目录下,并告诉爬虫哪些页面可以被访问,哪些页面应该被忽略。这有助于网站管理员控制搜索引擎对其站点内容的访问。
User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]
示例
User-agent: *
Disallow: /private/
Allow: /public/
这个示例表示允许所有爬虫访问 /public/ 目录,但禁止访问 /private/ 目录。
robots协议怎么查看?直接在目标网站后面加上/robots.txt就可以查看
- 因此在网站后面添加 /robots.txt 后回车
- 根据提示,flag_is_h3re.php,把这个文件名复制再以这个为地址后缀,则可以找到了flag
三. 总结
- 主要考察了朋友们是否了解robots协议,学习如何去查看等等知识点