【写在前面:笔者辣鸡的不行,好多基础知识也不太过关,囫囵吞枣就过去啦,如果有不对的地方,希望各位前辈不吝赐教,加以斧正!感谢万分!】
这道题很简单,如果是之前学习过python的话就更熟悉了
首先温习一下网址的robots.txt文件的意思
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又称元数据)。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: .gif"这样的通配符*——摘自维基百科**
以及各种允许抓取不允许抓取的标识符
允许所有的机器人:
User-agent: *
Disallow:
另一写法
User-agent: *
Allow:/
仅允许特定的机器人:(name_spider用真实名字代替)
User-agent: name_spider
Allow:
拦截所有的机器人:
User-agent: *
Disallow: /
禁止所有机器人访问特定目录:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):
User-agent: BadBot
Disallow: /private/
禁止所有机器人访问特定文件类型[2]:
User-agent: *
Disallow: /.php$
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
这一点牵扯到的知识顺便温习一下,然后就是通过题目的提示,肯定第一反应是去找网站下的文件目录,robots.txt
一般是直接放在服务器的根目录,所以直接访问就好
可以看一个可能是flag的php文件夹,虽然在不允许访问的列表不过难道真的就不访问了吗哈哈哈哈哈哈哈哈哈哈图样图森破嘻嘻嘻嘻嘻 直接访问flag文件夹
然后就得到flag啦 很简单的一道题 主要是想记录一下robots.txt的知识,毕竟有些时候还是盗亦有道嘛 以及这种简单粗暴的直接从网址访问服务器无权限目录的思路