最近有个爬虫的需求,需要从网站上自动登录、爬取各种文件,所以就需要自己编写个爬虫程序进行爬取。
爬虫之前首先需要对目标网站进行分析,下面就介绍一下本次项目的一些经验。
1.抓包工具
本次抓包工具使用的是Fiddler,配合浏览器FireFox使用。
原因是Fiddler没有网页标签页的跳转问题,不容易错过网络包,而且FireFox的F12功能可视化做的比chrome好。
1.1安装
在Linux系统中安装fiddler比较方便,基本的命令行就能解决:
wget http://ericlawrence.com/dl/MonoFiddler-v4484.zip
unzip MonoFiddler-v4484.zip
sudo apt-get install mono-complete
mono Fiddler.exe
即可以打开程序主界面
1.2 https配置
这里需要配置两个地方,一个是支持https,一个是配置代理用于手机APP抓包。
支持https配置,在Fiddler中:
-
点击Tools > Fiddler Options > HTTPS.
-
点击 Decrypt HTTPS Traffic box.
-
点击 export root certificate to desktop.完成本部操作可以在桌面看到导出的证书。