Android 使用Jsoup解析HTML

本文介绍了如何在Android应用中使用Jsoup库来解析HTML,包括安装Jsoup、获取Document对象、HTML head和body的内容,以及详细讲解了如何获取HTML中的特定元素和内容。示例代码展示了解析HTML标题、三级标题和标签值的过程。
摘要由CSDN通过智能技术生成

前言

本文主要是讲jsoup爬取网页上的数据用法,具体介绍请看:

安装

as用户可直接依赖

implementation org.jsoup:jsoup:1.11.1

其他用户请看 https://jsoup.org/download

使用

下面的html来自干货集中营,就先以这个为例:

获取Document对象

Document对象可以看成一个一个HTML文档。

// 连接提供了一个方便的接口来从web获取内容,并将它们解析为文档
final Connection connect = Jsoup.connect("http://gank.io/xiandu/");
// 伪装成浏览器抓取,具体有没用布吉岛。。
connect.header("User-Agent", "Mozilla/5.0 (X11; Linux x86_64; rv:32.0) Gecko/20100101 Firefox/32.0");
// 通过get()获取一个Document对象
final Document document = connect.get();

获取HTML head内容

head.png

我们想获取网页的标题,可以直接通过:

String title = document.head().select("title").text();
System.out.println(title);

输出:「读那些值得读的」

获取HTML body内容

前面的是不是感觉很简单,现在这个虽然复杂了一点,但是逻辑理清楚了,自然就简单很多了

<div class="typo">
    <div class="container content">

    <style>
        <!-- 省略部分html --!>
    </style>

    <h3 class="center"> 闲读 </h3>
    <p class="center" style="color: #747474;">
        读那些值得读的
    </p>

    <div id="xiandu_cat">
    <ul>
        <li><a style="border: 1px solid #747474;" href="/xiandu">科技资讯</a></li>
        <li><a href="/xiandu/apps">趣味软件/游戏</a></li>
        <li><a href="/xiandu/imrich">装备党</a></li>
        <li><a href="/xiandu/funny">草根新闻</a></li>
        <li><a href="/xiandu/android">Android</a></li>
        <li><a href="/xiandu/diediedie">创业新闻</a></li>
        
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值