python3和burpsuite组合爬取网页数据并存储在excel表格
作者:ch4nge
时间:2020.12.18
前言
最近在工作中遇到一个问题:渗透进入某网站后台,发现大量的用户数据(某恶意app获取的手机通讯录、短信信息),而这些数据需要我爬取下来制作成表格~
因为数据有几十万条,使用浏览器分页浏览也有上万页。这个时候一般的小天才当然不会去手撸啦~
PS:
问:为什么不用python直接写个爬虫,模拟登录爬取所有页面呢?
答:因为技术不允许啊~
此操作适合入门级人员(比如我)使用
环境
kali linux2019
python3.7.5
编辑器:kali自带的Mousepad
Excel:Microsoft Office专业版2019
Burp Suite Professional v2.0beta
网站:xxx
目录
看一下需要撸的数据页面(数据敏感我就直接采取粗暴式打码了~)
思路:第一步获取Response数据
我的思路是这样的~
1、先使用burpsuite抓包,看一下header请求头
可以看到变量page~
页面的意思啊!GET是我点击的页面,Referer是我原来的页面
看到这里,我这个python菜鸡心中一喜,可以用burpsuite的intruder模块对GET中page值的遍历,获取所有页面的Response然后再保存。
2、使用burpsuite的intruder模块遍历所有page值获取所有的Response。
这里要注意intruder模块中显示的页码和网站显示的不一样多,页面也不一样多了,所以要对页数进行判断,也可以遍历的page值设置大一些,获得Response后删除多余部分(可以批量选中,删除很方便,选中方式和excel差不多,使用shift键)
3、查看响应包重要数据格式
这里是重点,主要靠正则表达式在这里来提取数据
我这里搞了一部分,先看一下响应包的格式:每个数据块有8个数据
<th>ID</th>
<th>设备名称</th>
<th>登录手机</th>
<th>邀请码</th>
<th>短信号码</th>
<th>短信内容</th>
<th>短信发送时间</th>
<th>最后上传时间</th>
数据内容
<td>1234567</td>
<td>ch4nge</td>
<td>18888888888</td>
<td>12345</td>
<td>+8618888888888</td>
<td>小伙伴们,大家好,我是奔跑在安全圈尾部的菜鸡</td>
<td>20xx-xx-xx xx:xx:xx</td>
<td>20xx-xx-xx xx:xx:xx</td>
4、保存所有需要的Response数据包
点击Save
–>Server responses
保存的文件夹应该为空文件夹
点击保存即可
5、使用python提取数据
放在后面写了
思路:第二步 使用python正则表达式获取Response中重要数据,并格式化输出到txt
解释:
格式化输出指的是可以导入excel的数据格式。。。
比如我的exel第一行有5列,序号