不知道手机APP数据结构,借助第三方抓包工具,查看APP里面的内容并且分析他的链接地址,在python里面编写爬虫程序,不需要编写手机APP,没有手机APP的爬虫,还是在python里面爬取,只是通过用抓包工具分析APP请求和响应的规律,然后编写爬虫。
抓包工具原理:
通过设置代理的方式确保手机和 pc 处亍同一个局域网内,将手机处于抓包软件的监听之下,这样 app 収给服务器的数据包和服务器返回的数据包都要经由代理服务器转发,抓包软件便可以看到 App 运行过程中的请求和响应了,如果这些请求的 url参数是有规律的,就可以总结出规律直接用程序模拟爬叏。
抓包工具有代理服务器的功能:手机APP和外部服务器之间,起到转发的作用,就可以看到APP运行过程的请求和响应了
分析返回的数据结构,提取到的都是json
Fiddler 是最强大最好用的 Web 调试工具之一
它能记录所有客户端和服务器的 http 和 https 请求
允许监视,设置断点,甚至修改输入输出数据
Fiddler 包含了一个强大的基亍事件脚本的子系统,并且能使用.net 语言迚行扩展Fiddler 是以代理 web 服务器的形式工作的,它使用代理地址:127.0.0.1, 端口:8888.
Fiddler 会自劢设置代理,退出的时候它会自劢注销代理,这样就丌会影响别的程序。丌过如果
Fiddler 非正常退出,这时候因为 Fiddler 没有自劢注销,会造成网页无法访问。解决的办法是
重新吭劢下 Fiddler.同类的工具有: httpwatch, firebug, wireshark
安装 SwitchyOmega 代理管理 Chrome 浏览器插件