webmagic 获取文本_关于使用webmagic如何得到标签内部的内容的小例子

本文通过一个实例展示了在webmagic中如何获取HTML标签内的纯文本内容,通过在xpath选择器末尾添加'/text()'实现。代码示例中,作者首先展示了未修改时获取到的带有标签的结果,然后介绍了在xpath表达式中添加'/text()'后成功获取到不带标签的内容。文章还提及了一个类似问题的解决方案,即对结果调用toString()方法。
摘要由CSDN通过智能技术生成

今天在获取一个网页的具体内容时遇到了一些小麻烦,

源代码:

1 packagecom.ms.test;2

3 importus.codecraft.webmagic.Page;4 importus.codecraft.webmagic.Site;5 importus.codecraft.webmagic.Spider;6 importus.codecraft.webmagic.processor.PageProcessor;7

8 public class TestWebmagic implementsPageProcessor{9

10 Site site =Site.me();11 @Override12 publicSite getSite() {13 //TODO Auto-generated method stub

14 returnsite;15 }16

17 @Override18 public voidprocess(Page page) {19 //TODO Auto-generated method stub

20 page.putField("test", page.getHtml().xpath("//div[@class=p-2]/div[@class=o-border-bottom2]/div[@class=my-2]/strong"));21 }22

23 public static voidmain(String[] args) {24 Spider.create(newTestWebmagic())25 .addUrl("http://www.beijing.gov.cn/hudong/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值