关于火车采集js调用文章资讯的方法淘宝采集相关

最新推荐文章于 2024-03-19 19:10:37 发布

zhangfeng1133

最新推荐文章于 2024-03-19 19:10:37 发布

阅读量2.9k

点赞数

分类专栏： php

php 专栏收录该内容

285 篇文章 0 订阅

订阅专栏

关于火车采集js调用文章资讯的方法

心岛发布于2014年12月16日　分类： 数据采集 　浏览：761 人次　评论：0　

一、需要准备的工具软件：

火车头采集器

抓包软件（我使用的是fiddler）

二、首先以淘宝密儿为例说明如何对js调用的网页进行抓包

整体思路：利用网页cookie进行数据抓包处理。

1、安装运行抓包软件：

2、打开淘宝密儿网页并将网页滚动至网页底部，滚动过程中，你会发现大约一张页面会有5次js加载,然后点击状态栏的抓包软件，所有的抓包数据一目了然：

三、根据抓包数据设置采集规则

1、打开火车采集软件，新建一采集任务，然后点击采集网址选项卡的添加按钮，添加采集网址：

2、提取js页面的下层页面网址和该栏目的文章总数：

关于找网址的方法如下图所示：

利用文本工具打开代码后的对应关系如下（注意：复制的是项目的值，不要连标题都复制过去）：

这样完成后会采集到列表页面网址，但是我们还需要通过代码分析的方法将下层的网址也要提取出来：

注意：上图中需要将cookie复制到上图中的对应位置，然后开始查看：

如上图所示，这样就是已经成功执行了，注意红框中的总页数，如果大家最后采集到的页面总数可以和此处对比！

3、提取内容页的脚本规则：

利用上一步中我们查看到的代码来分析

至此，通过抓包软件获取js页面文章地址的方法就讲述完毕了，如果大家有任何问题，请在心岛博客中留言，我讲尽快协助解决问题！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。