webmagic解析html方式有哪些,[Java爬虫-WebMagic]-03-解析Html源码

最新推荐文章于 2022-08-11 21:37:16 发布

爪哇岛的小怪兽

最新推荐文章于 2022-08-11 21:37:16 发布

阅读量436

点赞数

文章标签： webmagic解析html方式有哪些

本文介绍了使用WebMagic框架解析HTML源码并提取所需内容的方法，包括Selectable接口的使用，如XPath和CSS选择器，以及如何利用replace方法去除不需要的数据。通过实战演示，展示了如何抓取CSDN博客RSS订阅内容。

摘要由CSDN通过智能技术生成

解析Html源码

在上一篇中,获取了网页的html源码,但是里面东西太多了,并不是我们想要的结果

所以我们需要提取我们想要的结果

使用Selectable接口，你可以直接完成页面元素的链式抽取，也无需去关心抽取的细节。

我们通过Page对象获取了html对象,如果深入的话会发现,Html对象的父类实现了Selectable接口,它是可以进行提取元素的。

Selectable中的部分API

方法

说明

示例xpath(String xpath)

使用XPath选择

html.xpath("//div[@class=‘title’]")

$(String selector)

使用Css选择器选择

html.$(“div.title”)

$(String selector,String attr)

同上,获取的是标签内容

html.$(“div.title”,“text”)

css(String selector)

功能同$() 使用Css选择器选择

html.css(“div.title”)

links()

选择所有链接

html.links()

regex(String regex)

使用正则表达式抽取

html.regex("(.*?)")

regex(String regex,int group)

使用正则表达式抽取，并指定捕获组

html.regex("(.*?)",1)

replace(String regex, String replacement)

替换内容

html.replace("","")

CSS选择器

选择器

例子

例子描述.class

.intro

选择 class=“intro” 的所有元素。

#id

#firstname

选择 id=“firstname” 的所有元素。

element

p

选择所有 < p > 元素。

element,element

div,p

选择所有 < d

最低0.47元/天解锁文章

爪哇岛的小怪兽

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
webmagic解析html方式有哪些,[Java爬虫-WebMagic]-03-解析Html源码

解析Html源码在上一篇中,获取了网页的html源码,但是里面东西太多了,并不是我们想要的结果所以我们需要提取我们想要的结果使用Selectable接口，你可以直接完成页面元素的链式抽取，也无需去关心抽取的细节。我们通过Page对象获取了html对象,如果深入的话会发现,Html对象的父类实现了Selectable接口,它是可以进行提取元素的。Selectable中的部分API方法说明示例xpat...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。