再次爬取基于Flex技术的某农产品每日价格历史数据
这个是实习期间耽搁时间最长的项目了,通过这个对pyamf这个包算是很熟悉了。不得不说他的请求伪造真的好复杂。。。
顺便吐槽一下,像flash这种当今在网页上见得很少了,但是众多政府网站依然使用,接受html5就那么难吗???还是说懒得换架构和模式??
网上对pyamf包的使用案例几乎没有,只能从国外找,1.23那天项目已经实践过一次,但是奈何这次的头比较复杂很多东西我并不知道如何伪造,不过花了两个下午,总算顺利解决了。
网络分析
前端分析
先看看这个flash张啥样吧:
数据项我已经用红框给圈了出来,基本的请求模式就是,先选择市场名,然后会发送一个请求,返回所有的品种大类和品种小类,选择品种小类和时间段,点击查询,发送给后端返回平均价格。 剩下的图表由前端负责渲染。
可以看出一共请求了后端两次,但是我们的需求仅仅是输入市场、品种名称和截止日期,输出该时间段内每天的价格
所以并不需要模拟第一次请求。
请求分析
chales抓包如图(目前只有chales能使amf数据明文显示,fiddler还做不到)
可以看到请求的东西包含了选择的品种小类和市场名称,最后一个BreedINfo是第一次请求返回的所有品类信息,后来经过测试这部分在第二次请求并不需要,所以我就全填了None。
从请求的架构上看这与我的预想是一致的
响应分析
相应的body也很简洁明了,顺便返回了时间区间,解析的方法按照pyamf的层级选择语法写就行
构造请求(pyamf用法记录)
这是此次项目的最难的地方,也是考验耐心的地方。也算是pyamf的核心