linux运行火车头采集,火车头数据采集工具 - osc_yeuut7e4的个人空间 - OSCHINA - 中文开源技术交流社区...

这里以8.0版本作演示,闲话就不多说了,首先,你看到的界面是这样的:

3325c14660615ab85437fc9e29b5694e.png

当然,第一次使用的话,左边这些列表是没有的,这是项目需要自建的任务列表。那么,现在从头开始介绍怎么操作吧。

1.新建任务

左边空白处右键--->新建分组

87a3ffcb4ea4f13bc25cee996ec6620c.png

然后列表里多了一个任务组(这里以测试分组为例),接下来你可以继续在这个文件夹下继续建立分组或者直接新建任务(根据需要)

68b5b76884f6565b821c412b200b6836.png

2.编辑任务

其实就是你新建任务之后的界面,任务名自定义:

e8a2b33a799d1ffba0a18fde2dfeaacf.png

接下来就是该工具数据采集的重点了,拿个小本记一下!!!

2.1采集网址规则(列表页)

看到第一步右边的添加了没,点击添加:

18ef71ab733d32033911d203dca381a9.png

这里的网址规则分两种,一是单页网址,二是分页网址,举个栗子:

0938da84e92c1b4a4c17972c274daf4b.png

我要采集这个网站科技论文栏目下的所有文章,由于文章数目比较多,那么稳扎列表页也是有很多的,比如一个列表页有10篇文章:

http://www.XXXXX.com/tdkj/index.shtml;

http://www.XXXXX.com/tdkj/index_2.shtml;

http://www.XXXXX.com/tdkj/index_3.shtml;

http://www.XXXXX.com/tdkj/index_4.shtml;

http://www.XXXXX.com/tdkj/index_5.shtml;

http://www.XXXXX.com/tdkj/index_6.shtml;

http://www.XXXXX.com/tdkj/index_7.shtml;

http://www.XXXXX.com/tdkj/index_8.shtml;

http://www.XXXXX.com/tdkj/index_9.shtml;

这里有10个文章列表页,很显然,他们的地址规则是分两种风格的:第一页和其他九页;

对于第一种风格,当然是选择"单条网址"(下面就不打码了):

1eeb2c58fc5904fd337bad4abe5ee8e7.png

对于第二种风格:

06e65f8210f299875c89cad8a25d77d3.png

这样,文章列表页网址就全部拿到了,那么,怎么从这些文章列表页获取具体的文章页面链接呢?

2.2采集网址规则(内容页)

我们来看一下文章列表页的html结构(拿刚才的首页作栗子):

9063fb5ec7dc886f457b861c1d39af95.png

28edca8e30e35804aee3167b1358e600.png

考虑到博客页面的整体宽度,以及两张图共一排对比的必要性,我将图缩小了,其实你也没必要看清图中的

具体文字,你只要根据上图体会一下,该html的结构即可;

毋庸置疑,每篇文章的具体内容页链接就在这个标题中了,不信你看:

6625d1577bea06233d6e1b4a2c27bd60.png

很显然我们要从DOM结构中获取这些内容页链接,那么就涉及到获取规则的写法了,请看:

b403f963ca9b9fcee103aff04992442e.png

选择添加或者修改(如果你之前就有规则的话):

c6cc36a7f264efcecf0fd7e107e0556e.png

箭头从上到下,从左到右,需要注意的是,虽然工具给我们自动生成了规则,但工具毕竟是工具,他自动填充的规则通常都是不靠谱的!!!

那就需要我们自己分析规则了:

f060a1aebc930a7e80bdbf65b45f0f27.png

我们要获取所有

因此,这里的规则妍写成从

,只有这样,工具才会从上面的区域查找链接。

下面我们继续,已经知道从哪个区域找链接,接下来就是找哪种链接了,这时候你要瞄一下,所有详情页文章链接长什么样,比如:

08f1cd66bfc986c77f4a48c2eb98eb85.png

在列表页鼠标放到文章标题上你就可以看到了(恕我啰嗦),然后你大概扫了一下,发现所有列表页的文章详情页链接差不多像下

面这样:

http://www.chnrailway.com/news/20090606/0606326101.html

http://www.chnrailway.com/html/18-03-12/23-45-78.shtml

http://www.chnrailway.com/rail/show-9875756/78-78.html

那么你应该可以写出规则了:

http://www.chnrailway.com/(*)/(*)/(*).(*)html

这样一来,详情页的链接你也拿到了,接下来就是设置详情页内容的获取规则了。

2.3采集内容规则(详情页内容规则)

6bad4c8543351a198c1213bda719e4c9.png

看到没有,在这里可以设置标题、内容以及其他的数据获取来源,我们先拿标题来看:

ff3811b4dfc7a0881b4e18a9a9714531.png

a909c9b3c440c4e75fd38869684bb9f0.png

我把右边这块放大:

b19fdcd526da21361fb226247ef568f2.png

很显然,这个标题要从DOM结构的

 

中拿,具体要根据html来判断,毕竟不同网站的html风格不同,于是就将这个规则填入标题

获取的规则里,同理,文章内容规则也是一样,给出一张图,自己琢磨吧。

c380582092efad8da2e0831e265a1d16.png

2.4测试规则

测试就是说,看看自己之前写的规则能不能采集到源网站数据。

63f306d78345af8e0bef910487190669.png

15b60695386c09b717b0c8cf8630677e.png

点击任意加号,找到一个详情页,然后右边"测试该页":

3c97d8d84662712673eab755cb325025.png

如果可以获取到你想要的数据,那么说明你之前写的规则是正确的!!!

2.5发布内容设置

数据采集好了,当然要发布到目标网站啊,那么:

7a1990af539ed5eea938dccf03f79039.png

这个发布配置可以自定义配置的(我们点开WEB发布配置管理):

ea1cecc189fc95153334e0cdee6122b7.png

这些都是根据你要发布的网站而定的。

至于最后一项:文件保存以及部分高级设置,可以不作任何修改,如果你有兴趣,请自行研究。

所有的规则、配置都写好并测试无误之后,你的这项采集任务可以说是完成了,那么接下来就是,执行任务了:

2df79b7b0cc98a99ea18e6de54f80004.png

这三个复选框分别表示:采网址、采内容、发布,如果你已经全选了,那么

右键这条任务,开始任务,他就开始采集数据并上传数据了,根据数据量的多少,任务执行的时间也会不同哦~~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值