webmagic解析html方式有哪些,[Java爬虫-WebMagic]-03-解析Html源码

解析Html源码

在上一篇中,获取了网页的html源码,但是里面东西太多了,并不是我们想要的结果

所以我们需要提取我们想要的结果

使用Selectable接口,你可以直接完成页面元素的链式抽取,也无需去关心抽取的细节。

我们通过Page对象获取了html对象,如果深入的话会发现,Html对象的父类实现了Selectable接口,它是可以进行提取元素的。

Selectable中的部分API

方法

说明

示例xpath(String xpath)

使用XPath选择

html.xpath("//div[@class=‘title’]")

$(String selector)

使用Css选择器选择

html.$(“div.title”)

$(String selector,String attr)

同上,获取的是标签内容

html.$(“div.title”,“text”)

css(String selector)

功能同$() 使用Css选择器选择

html.css(“div.title”)

links()

选择所有链接

html.links()

regex(String regex)

使用正则表达式抽取

html.regex("(.*?)")

regex(String regex,int group)

使用正则表达式抽取,并指定捕获组

html.regex("(.*?)",1)

replace(String regex, String replacement)

替换内容

html.replace("","")

CSS选择器

选择器

例子

例子描述.class

.intro

选择 class=“intro” 的所有元素。

#id

#firstname

选择 id=“firstname” 的所有元素。

element

p

选择所有 < p > 元素。

element,element

div,p

选择所有 < di

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值