python3和burpsuite组合爬取网页数据并存储在excel表格(需要登录后才能看到的大量数据)

最新推荐文章于 2024-05-19 01:03:12 发布

changeba

最新推荐文章于 2024-05-19 01:03:12 发布

阅读量1.6k

点赞数

分类专栏： python脚本技术/心得

本文链接：https://blog.csdn.net/qq_25094483/article/details/111356370

版权

目录前言环境思路：第一步获取Response数据1、先使用burpsuite抓包，看一下header请求头2、使用burpsuite的intruder模块遍历所有page值获取所有的Response。3、查看响应包重要数据格式4、保存所有需要的Response数据包5、使用python提取数据思路：第二步使用python正则表达式获取Response中重要数据，并格式化输出到txt1、python正则表达式3、文件读取4、数据提取5、格式化输出6、格式化后的数据以追加的形式写入文件7、最终脚本思路：第三步

摘要由CSDN通过智能技术生成

python3和burpsuite组合爬取网页数据并存储在excel表格

作者：ch4nge
时间：2020.12.18

前言

最近在工作中遇到一个问题：渗透进入某网站后台，发现大量的用户数据（某恶意app获取的手机通讯录、短信信息），而这些数据需要我爬取下来制作成表格~
因为数据有几十万条，使用浏览器分页浏览也有上万页。这个时候一般的小天才当然不会去手撸啦~

PS：
问：为什么不用python直接写个爬虫，模拟登录爬取所有页面呢？
答：因为技术不允许啊~
此操作适合入门级人员（比如我）使用

环境

kali linux2019
python3.7.5
编辑器：kali自带的Mousepad
Excel：Microsoft Office专业版2019
Burp Suite Professional v2.0beta
网站：xxx

思路：第一步获取Response数据

我的思路是这样的~

1、先使用burpsuite抓包，看一下header请求头

可以看到变量page~
页面的意思啊！GET是我点击的页面，Referer是我原来的页面
看到这里，我这个python菜鸡心中一喜，可以用burpsuite的intruder模块对GET中page值的遍历，获取所有页面的Response然后再保存。
003

2、使用burpsuite的intruder模块遍历所有page值获取所有的Response。

这里要注意intruder模块中显示的页码和网站显示的不一样多，页面也不一样多了，所以要对页数进行判断，也可以遍历的page值设置大一些，获得Response后删除多余部分（可以批量选中，删除很方便，选中方式和excel差不多，使用shift键）
004

3、查看响应包重要数据格式

这里是重点，主要靠正则表达式在这里来提取数据
我这里搞了一部分，先看一下响应包的格式：每个数据块有8个数据

  <th>ID</th>
        <th>设备名称</th>
        <th>登录手机</th>          
        <th>邀请码</th>          
	    <th>短信号码</th>
	    <th>短信内容</th>
	    <th>短信发送时间</th>		  
        <th>最后上传时间</th>

数据内容

        <td>1234567</td>
        <td>ch4nge</td>          
        <td>18888888888</td>
        <td>12345</td>
        <td>+8618888888888</td>          
        <td>小伙伴们，大家好，我是奔跑在安全圈尾部的菜鸡</td>          
        <td>20xx-xx-xx xx:xx:xx</td>          
        <td>20xx-xx-xx xx:xx:xx</td>

005

4、保存所有需要的Response数据包

点击Save–>Server responses

006
保存的文件夹应该为空文件夹
007
点击保存即可
008
015

5、使用python提取数据

放在后面写了

思路：第二步使用python正则表达式获取Response中重要数据，并格式化输出到txt

解释：
格式化输出指的是可以导入excel的数据格式。。。
比如我的exel第一行有5列，序号

最低0.47元/天解锁文章

changeba

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python3和burpsuite组合爬取网页数据并存储在excel表格(需要登录后才能看到的大量数据)

目录前言环境思路：第一步获取Response数据1、先使用burpsuite抓包，看一下header请求头2、使用burpsuite的intruder模块遍历所有page值获取所有的Response。3、查看响应包重要数据格式4、保存所有需要的Response数据包5、使用python提取数据思路：第二步使用python正则表达式获取Response中重要数据，并格式化输出到txt1、python正则表达式3、文件读取4、数据提取5、格式化输出6、格式化后的数据以追加的形式写入文件7、最终脚本思路：第三步
复制链接

扫一扫