火车头v9抓取瀑布流式网页的新闻内容

最新推荐文章于 2024-02-21 09:55:32 发布

wjw970718

最新推荐文章于 2024-02-21 09:55:32 发布

阅读量1.1k

点赞数 2

分类专栏：工具软件文章标签： html5 ajax 正则表达式数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vvloveyouyy/article/details/120341499

版权

工具软件专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、下载火车头，注册账号登录

二、提取文章网址

看一下我们需要提取的网页，我这里以维科号-电子工程为例

https:mp.ofweek.com/ctrade/ee

我们的目的是提取这里的所有的文章的标题，内容，链接，上传时间，提取时间，这个网页是瀑布流式的，可以向下一直翻动，只要一直翻就会有新资源刷新，下面我们开始提取

新建任务

红色处是起始网页，也就是我们的第一页，如果提取的网页批量有规律，可以在这里描述下规则

但是我们这次提取的网页比较特殊，是没有固定的规律的，fiddler抓包如下

得到的拼接地址为 https://mp.ofweek.com/recommend/ajax_index_news&next_id=&ctrade=ee

为什么从这一包里抓取网页：因为瀑布流式网页使用了ajax技术，网页从首页开始往下next_id

不断变化来形成整个瀑布，所以只需要找到网页的首页，再设置一个变量就可以了

随便打开篇文章这里我们可以看到具体文章的网页结构是mp.ofweek.com/ee/a********

打开刚才拼接好的起始页网址

https://mp.ofweek.com/recommend/ajax_index_news&next_id=&ctrade=ee

在里面寻找文章的标题链接

比如这里是一篇文章的链接，但是却不是我们正常的网页的格式所以需要在下面黄框的位置坐一下转换

变成我们正常可以访问的网页格式，再点击分页设置，把next后的参数加上，最多页数为翻页的数量，取消自动识别分页

保存后点击测试网页提取，看是否提取到了对应的网页

三、提取文章内容

如果网页提取的正确，那么下面开始提取内容，选择内容采集规则，下面标红处是需要提取的

数据的标签，我们把需要的标签打在这里

下面内容需要一些h5基础

标题直接从文章源码中截 <h1> 标题</h1>

内容的话提取正文的Xpath，到文章正文中选取一段文字，右击选择检查，在弹出来的页面中右击，选择copy，选择复制Xpath，粘贴到规则区域里

是下面这样的格式，但是这是一个具体段落的我们需要给他变成所有正文所在的区域，把最后的/p[11]去掉放到采集规则里

/html/body/div[3]/div/div/div[2]/div[2]/p[11]

提取时间是生成固定格式数据

网页链接用正则表达式提取

下面使用一个网页内容放到最下面进行测试，会发现文章里有很多不需要的符号，比如图片的链接等等，都可以在下面便签过滤里设置规则过滤掉，最后，一定记得保存

最后启动任务进行测试

提取成功，再写好数据库发布规则就可以发布到数据库了

有使用问题欢迎沟通，嘿嘿！

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
火车头v9抓取瀑布流式网页的新闻内容

一、下载火车头，注册账号登录二、提取文章网址看一下我们需要提取的网页，我这里以维科号-电子工程为例 https:mp.ofweek.com/ctrade/ee 我们的目的是提取这里的所有的文章的标题，内容，链接，上传时间，提取时间，这个网页是瀑布流式的，可以向下一直翻动，只要一直翻就会有新资源刷新，下面我们开始提取新建任务红色处是起始网页，也就是我们的第一页，如果提取的网页批量有规律，可以在这里描述下规则但是我们这次...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。