最大化参数 火车头_初级火车头采集器教程分享

古人云:“工欲善其事,必先利其器”。在简书写了将近123篇文章,仅粗略分析过几次数据,使用的方式均是手工采集数据,效率上相对比较慢,此前,有用过火头采集器,效率上比手工采集快好几倍。因此,将自己使用心得分享一下,该教程属于火车头采集器初级版。

本文目录:

采集背景介绍

采集方法步骤说明

个人经验小结

一、采集背景####

采集背景:采集简书文章标题、网址、阅读数

目的:用来做数据分析

使用工具:火车头采集器(火车采集器是一款互联网数据抓取、处理、分析,挖掘软件。)

二、采集方法步骤说明####

步骤1:安装火车头采集器(注意:需要安装net4.0框架才能运行)

步骤2:注册账号

步骤3:了解基本界面

a.点击开始——>新建文件夹(并重新命名,以便你自己清楚采集的是什么)——>新建任务

b.新建任务后,弹出设定任务规则框(以下几点要注意)

(1)填写你所要采集的内容所在的网址。如果是有规律的话,可以通过【向导添加】相关规则,如下:简书为例,我要采集自己简书中的内容数据,进行分析。主要采集的内容在列表页,但因为简书采用的是惰性加载方式,翻页的内容我是无法采的,于是就需要查看源代码(这里需要懂一定代码知识的童鞋才能找到),然后在源代码中,找到相关的链接,而且是有规律的,于是我就可以通过【向导添加】添加相关规则。具体的规则继续看下面的步骤4.

向导添加界面:

步骤4:写网址提取规则

我在源代码中找到的列表链接,要采集所有的链接就必须把所有的翻页找出来,翻页是有规律的,于是得到下面这个规则。只有链接中的“page=”后面的地址参数是变化的,于是我们可以对参数用[地址参数]进行设定。然后选择【地址参数】中的数字变化,因为是数字。共有14个,于是有14项。

设定好地址格式后,我们可以进一步设置自己在该页面所要采集的内容了。那就是,我们要通过列表页采集每篇文章的网址,方法如下:

(1)在获取内容网址,选择获取方式:自动获取地址链接。

(2)使用链接过滤:提取文章链接,文章的链接是有共性的 。

填写完这些后,点击【网址采集测试】,这时候你可以验证规则是否正确。

验证OK!规则正确!棒棒哒!写完规则,记得要保存!

步骤5:写内容提取规则

采集到每篇文章的网址后,我们接下来就是要采集每篇文章的相关信息:标题、网址、阅读数、喜欢数!这是我们的终级目标! 写完规则,记得要保存! 方法见下图:

PS:这个同样是需要懂一定的html代码知识。

添加规则如下:

(1)在标签列表添加要采集的标签名称,该框右侧有个“+”可以加多个标签。

(2)数据获取方式选择:从源代码中获取数据,提取方式选择“前后截取”,然后在源代码中提取我们所要信息的前后代码,记住,要是唯一的代码,避免提取出来出错。

补充:教大家提取前后代码

在网页中,右键查看源代码。找到标题。我们会发现重复的标题有多个。但要选择那个前后代码是唯一的那个,可以通过ctrl+f进行验证是否是唯一的。下面这个为标题的前后代码,剩下的几个元素前后代码,大家自行练习下哈。

步骤6: 设定储存位置

点击内容发布规则——>保存为本地文件——>启用本地文件保存——>保存设置文件格式选txt(原因是我们使用的是免费软件)——>设定保存位置

步骤7: 启动采集,设定储存位置设定好规则后,保存并退出,回到工具首页,启动采集——>这3处一定要勾选,然后右键选择——>开始。见下图:

献上采集后的初级数据:

献上清洗后的数据及相关的数据分析,见下图:

三、个人经验小结####

附:数据分析小结——阅读量高的原因

1.在搜索引擎有排名,从搜索引擎获得一定的流量。(秘诀在标题上,可先借助百度指数挖掘有搜索量的关键词,且该关键词与你的文章主题相契合。当你的文章写得不错,且有一定的互动性,又获得其它人的转载后,将有机会获得排名)

2.部分文章是因为早期获得简书首页推荐,这个与简书首页早期首页推荐规则有关系,早期的首页推荐一旦上首页,阅读量等相关的用户数据都是比较可观的。但简书为了更好的用户体验,已进行调整了推荐规则(个性化首页定制,根据用户自选的主题,推荐热门的内容)。因此,要想在简书获得好的阅读量,内容好是一方面,另一方面还要注意平台产品新规。

3.用好简书的相关专题,将写好的文章进行投稿到对应主题的专题,也有利于提升文章的曝光度。

最后小结:

这是个大数据时代,要有大数据的思维,通过数据分析,我们可以了解到文章背后的一些影响因素,从而,让我们在运营自媒体账号方面,会更加的有的放矢,而懂一门编程语言,或者采集工具的使用方法,则是锦上添花的一种方式。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值