ForeSpider数据采集系统脚本的几个小方法

最新推荐文章于 2024-08-15 02:43:19 发布

雨霖铃儿

最新推荐文章于 2024-08-15 02:43:19 发布

阅读量6.1k

点赞数 1

文章标签：爬虫数据抓取图片抓取数据采集数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011231755/article/details/77750989

版权

ForeSpider数据采集系统脚本的几个小方法

今天给大家介绍一下我平时使用前嗅forespider数据采集系统配置模板的时候用到的几种方法，以前写过一个链接抽取的教程，今天就不给大家介绍了，没看过的用户可以关注一下我以前的文章，有很多有用的教程。

首先，大家看一下这是我准备采集数据的网页：

截图中三个圈起来的地方就是我要取的三个字段，然后分别取到下面每一行，一直到结束。

像这种多行的数据又不确定行数，我们就要使用循环，先取到最上面一行，然后往下循环。一直到结束。

上图是我写的数据抽取脚本，这个数据抽取一共有3个字段，名字分别为“word”“inde”“rank”，对应脚本中“re.***”，每一行的脚本上都有绿色的注释，

解释每一行的作用。

总结一下脚本中用到的几种方法：

① DOM.FindClass：HTML文档的操作方法，通过标签class属性值查找标签节点（还有能通过标签名称和ID属性值查找标签节点的方法，本文未使用）。

② DOM.GetTextAll：获取HTML标签节点及所有子节点的可见文本。

③ next：返回标签节点的后一节点。

④ if、while：常见的判断、循环语句。

*想了解更详细的使用方法清看软件文档。

采集示例网址：http://top.chinaz.com/Html/site_ali213.net.html

大家可以根据网页源码，软件帮助文档，对照着脚本看一下，理解每一行的意思。

也可以看一下往期的文章教程，有兴趣的朋友关注一下，经常会更新教程和有意思的东西，希望大家使用的一切顺利。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。