关于火车采集js调用文章资讯的方法
心岛发布于2014年12月16日 分类: 数据采集 浏览:761 人次 评论:0一、需要准备的工具软件:
抓包软件(我使用的是fiddler)
二、首先以淘宝密儿为例说明如何对js调用的网页进行抓包
整体思路:利用网页cookie进行数据抓包处理。
1、安装运行抓包软件:
2、打开淘宝密儿网页并将网页滚动至网页底部,滚动过程中,你会发现大约一张页面会有5次js加载,然后点击状态栏的抓包软件,所有的抓包数据一目了然:
三、根据抓包数据设置采集规则
1、打开火车采集软件,新建一采集任务,然后点击采集网址选项卡的添加按钮,添加采集网址:
2、提取js页面的下层页面网址和该栏目的文章总数:
关于找网址的方法如下图所示:
利用文本工具打开代码后的对应关系如下(注意:复制的是项目的值,不要连标题都复制过去):
这样完成后会采集到列表页面网址,但是我们还需要通过代码分析的方法将下层的网址也要提取出来:
注意:上图中需要将cookie复制到上图中的对应位置,然后开始查看:
如上图所示,这样就是已经成功执行了,注意红框中的总页数,如果大家最后采集到的页面总数可以和此处对比!
3、提取内容页的脚本规则:
利用上一步中我们查看到的代码来分析
至此,通过抓包软件获取js页面文章地址的方法就讲述完毕了,如果大家有任何问题,请在心岛博客中留言,我讲尽快协助解决问题!