ForeSpider数据采集系统脚本的几个小方法

ForeSpider数据采集系统脚本的几个小方法

今天给大家介绍一下我平时使用前嗅forespider数据采集系统配置模板的时候用到的几种方法,以前写过一个链接抽取的教程,今天就不给大家介绍了,没看过的用户可以关注一下我以前的文章,有很多有用的教程。

首先,大家看一下这是我准备采集数据的网页:

 

截图中三个圈起来的地方就是我要取的三个字段,然后分别取到下面每一行,一直到结束。

像这种多行的数据又不确定行数,我们就要使用循环,先取到最上面一行,然后往下循环。一直到结束。

 

 

上图是我写的数据抽取脚本,这个数据抽取一共有3个字段,名字分别为“word”“inde”“rank”,对应脚本中“re.***”,每一行的脚本上都有绿色的注释,

解释每一行的作用。

总结一下脚本中用到的几种方法:

① DOM.FindClass:HTML文档的操作方法,通过标签class属性值查找标签节点(还有能通过标签名称和ID属性值查找标签节点的方法,本文未使用)。

② DOM.GetTextAll:获取HTML标签节点及所有子节点的可见文本。

③ next:返回标签节点的后一节点。

④ if、while:常见的判断、循环语句。

*想了解更详细的使用方法清看软件文档。

采集示例网址:http://top.chinaz.com/Html/site_ali213.net.html

大家可以根据网页源码,软件帮助文档,对照着脚本看一下,理解每一行的意思。

也可以看一下往期的文章教程,有兴趣的朋友关注一下,经常会更新教程和有意思的东西,希望大家使用的一切顺利。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值