爬虫中的groovy脚本

最新推荐文章于 2022-09-13 13:07:55 发布

旺旺27

最新推荐文章于 2022-09-13 13:07:55 发布

阅读量1.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013084204/article/details/46806003

版权

1.使用select()方法在页面上选择我们需要的信息

def document = page.getHtml().getDocument();//这里的page是webmagic中的一个Page对象

在

<div id="aa">

<span class="bb">

爬虫中的groovy脚本

</span>

</div>

如果想要获取这个标签的正文内容，有以下方法：

document.select("div#aa").text()
document.select("div#aa>span") .text()
document.select("span.bb").text()

如果想要获取这个完整的标签（包括标签和文本）：

document.select("div#aa").toString()

2.使用正则表达式来匹配文本并截取所需要的信息

在groovy主要使用"=~/regex/"来匹配，比如说msg=“开始-需求信息-结尾”，想要截取“需求信息”，则使用：def aa = (msg=~/开始(.+)?结尾/)[0][1] //这里可以将匹配后的结果视为一个二维数据
匹配日期时间类型：比如msg = "2015-7-9 13:30" 使用(msg=~/\d{4}-\d{1,2}-d{1,2} \d{1,2}:d{1,2} /)[0]就可以匹配到"2015-7-9 13:30",当然如果要把它转换成dateTime类型的话，还要用到SimpleDateFormat类的parse()和format()方法来转换

3.使用xpath来获取所需要的信息

有时候，我们发现一些标签只有style属性，没有id,class属性，这就不能使用select()函数了，因为select()中的参数都是css样式选择器,这个时候，我们发现xpath就很好用了

比如说

<table sytle="width:100px">

<tbody>

<tr><td>

使用xpath来获取所需要的信息

</td></tr>

</tbody>

</table>
我们可以使用page.getHtml().xpath("//talbe[@sytle=width:100px]").all()来获取这个table标签

*因为刚开始用xpath，不是很熟练，没有什么好的建议（可以看看W3CSchool的帮助文档有介绍）

4.使用其他的一些方法来去掉多余的信息

replacAll(String regex,String str)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。