一.view source
无法右键查看源代码
- 方法一:ctrl +u
- 方法二:burp 抓包
二.get post
- 请用GET方式提交一个名为a,值为1的变量
直接在url后面加上?a=1 - 请再以POST方式随便提交一个名为b,值为2的变量
可以使用hackbar post传入b=2
三.robots
- robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取.根据协议,网站管理员可以在网站域名的根目录下放一个robots.txt 文本文件,里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由正则表达式表示。网络爬虫在采集这个网站之前,首先获取到这个文件,然后解析到其中的规则,然后根据规则来采集网站的数据。
注意,这个协议的存在更多的是需要网络爬虫去遵守,而起不到防止爬虫的功能。
四.backup
- 如果网站存在备份文件