python3和burpsuite组合爬取网页数据并存储在excel表格(需要登录后才能看到的大量数据)

目录前言环境思路:第一步获取Response数据1、先使用burpsuite抓包,看一下header请求头2、使用burpsuite的intruder模块遍历所有page值获取所有的Response。3、查看响应包重要数据格式4、保存所有需要的Response数据包5、使用python提取数据思路:第二步 使用python正则表达式获取Response中重要数据,并格式化输出到txt1、python正则表达式3、文件读取4、数据提取5、格式化输出6、格式化后的数据以追加的形式写入文件7、最终脚本思路:第三步
摘要由CSDN通过智能技术生成

python3和burpsuite组合爬取网页数据并存储在excel表格


作者:ch4nge
时间:2020.12.18


前言

最近在工作中遇到一个问题:渗透进入某网站后台,发现大量的用户数据(某恶意app获取的手机通讯录、短信信息),而这些数据需要我爬取下来制作成表格~
因为数据有几十万条,使用浏览器分页浏览也有上万页。这个时候一般的小天才当然不会去手撸啦~


PS:
问:为什么不用python直接写个爬虫,模拟登录爬取所有页面呢?
答:因为技术不允许啊~
此操作适合入门级人员(比如我)使用


环境

kali linux2019
python3.7.5
编辑器:kali自带的Mousepad
Excel:Microsoft Office专业版2019
Burp Suite Professional v2.0beta
网站:xxx


看一下需要撸的数据页面(数据敏感我就直接采取粗暴式打码了~)
0001
002


思路:第一步获取Response数据

我的思路是这样的~

1、先使用burpsuite抓包,看一下header请求头

可以看到变量page~
页面的意思啊!GET是我点击的页面,Referer是我原来的页面
看到这里,我这个python菜鸡心中一喜,可以用burpsuite的intruder模块对GET中page值的遍历,获取所有页面的Response然后再保存。
003

2、使用burpsuite的intruder模块遍历所有page值获取所有的Response。

这里要注意intruder模块中显示的页码和网站显示的不一样多,页面也不一样多了,所以要对页数进行判断,也可以遍历的page值设置大一些,获得Response后删除多余部分(可以批量选中,删除很方便,选中方式和excel差不多,使用shift键)
004

3、查看响应包重要数据格式

这里是重点,主要靠正则表达式在这里来提取数据
我这里搞了一部分,先看一下响应包的格式:每个数据块有8个数据

  <th>ID</th>
        <th>设备名称</th>
        <th>登录手机</th>          
        <th>邀请码</th>          
	    <th>短信号码</th>
	    <th>短信内容</th>
	    <th>短信发送时间</th>		  
        <th>最后上传时间</th>

数据内容

        <td>1234567</td>
        <td>ch4nge</td>          
        <td>18888888888</td>
        <td>12345</td>
        <td>+8618888888888</td>          
        <td>小伙伴们,大家好,我是奔跑在安全圈尾部的菜鸡</td>          
        <td>20xx-xx-xx xx:xx:xx</td>          
        <td>20xx-xx-xx xx:xx:xx</td>

005

4、保存所有需要的Response数据包

点击Save–>Server responses

006
保存的文件夹应该为空文件夹
007
点击保存即可
008
015

5、使用python提取数据

放在后面写了

思路:第二步 使用python正则表达式获取Response中重要数据,并格式化输出到txt

解释:
格式化输出指的是可以导入excel的数据格式。。。
比如我的exel第一行有5列,序号

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值