一、下载火车头,注册账号登录
二、提取文章网址
看一下我们需要提取的网页,我这里以维科号-电子工程为例
https:mp.ofweek.com/ctrade/ee
我们的目的是提取这里的所有的文章的标题,内容,链接,上传时间,提取时间,这个网页是瀑布流式的,可以向下一直翻动,只要一直翻就会有新资源刷新,下面我们开始提取
新建任务
红色处是起始网页,也就是我们的第一页,如果提取的网页批量有规律,可以在这里描述下规则
但是我们这次提取的网页比较特殊,是没有固定的规律的,fiddler抓包如下
得到的拼接地址为 https://mp.ofweek.com/recommend/ajax_index_news&next_id=&ctrade=ee
为什么从这一包里抓取网页:因为瀑布流式网页使用了ajax技术,网页从首页开始往下next_id
不断变化来形成整个瀑布,所以只需要找到网页的首页,再设置一个变量就可以了
随便打开篇文章这里我们可以看到具体文章的网页结构是mp.ofweek.com/ee/a********
打开刚才拼接好的起始页网址
https://mp.ofweek.com/recommend/ajax_index_news&next_id=&ctrade=ee
在里面寻找文章的标题链接
比如这里是一篇文章的链接,但是却不是我们正常的网页的格式所以需要在下面黄框的位置坐一下转换
变成我们正常可以访问的网页格式,再点击分页设置,把next后的参数加上,最多页数为翻页的数量,取消自动识别分页
保存后 点击测试网页提取,看是否提取到了对应的网页
三、提取文章内容
如果网页提取的正确,那么下面开始提取内容,选择内容采集规则,下面标红处是需要提取的
数据的标签,我们把需要的标签打在这里
下面内容需要一些h5基础
标题直接从文章源码中截 <h1> 标题</h1>
内容的话提取正文的Xpath,到文章正文中选取一段文字,右击选择检查,在弹出来的页面中右击,选择copy,选择复制Xpath,粘贴到规则区域里
是下面这样的格式,但是这是一个具体段落的我们需要给他变成所有正文所在的区域,把最后的/p[11]去掉放到采集规则里
/html/body/div[3]/div/div/div[2]/div[2]/p[11]
提取时间是生成固定格式数据
网页链接用正则表达式提取
下面使用一个网页内容放到最下面进行测试,会发现文章里有很多不需要的符号,比如图片的链接等等,都可以在下面便签过滤里设置规则过滤掉,最后,一定记得保存
最后启动任务进行测试
提取成功,再写好数据库发布规则就可以发布到数据库了
有使用问题欢迎沟通,嘿嘿!