android jsoup爬取html,Android Jsoup 爬取网页数据

笨得掉进迷障

于 2021-05-27 13:51:19 发布

阅读量156

点赞数

文章标签： android jsoup爬取html

本文介绍了如何使用Jsoup库来爬取和解析HTML页面。通过Jsoup.connect()方法加载网页，然后利用select()方法查找特定标签，如通过选择器div.project-info.clearfix找到目标元素。接着，解析嵌套标签，如提取a标签的text和href属性，展示如何进行HTML内容的提取和处理。

摘要由CSDN通过智能技术生成

一不小心一个月又过去了，其实最近还是小忙小忙的，废话不多说，直接进入今天的主题吧。

HTML 标签

要去爬别人的 HTML 标签的话，首先你肯定得有一定的 HTML 的基础知识吧。比如说常用的标签，标签的相关属性，这个就不多说了，有相关问题都可以在 www.w3school.com.cn 的网站解决一下。

加载网页

最简单的，直接加载一个网页：

Document document = Jsoup.connect("https://www.google.com").get();

那看到最后的 get() 方法聪明滴你一定就猜到还有一个对应的 post() 方法了吧。另外，http 请求的相关操作都是可以设置的，包括 header 请求参数，请求超时等等。除此之外，本地的文件(IO流)等都是可以直接解析的哈。

Document document = Jsoup.connect("https://android-arsenal.com")

.timeout(5000)

.cookie("cookie", "cxxx")

.header("xx", "xx")

.userAgent("")

.get();

基本标签解析

之后咱们就得到了一个 Document 的对象了。这个对象就是对整个请求网页的封装，相关内容都可以在里面获取。

来吧，加入我们有下面一段html标签需要解析：

A single adapter for the whole project.

Now you do not need to implement adapters for RecyclerView.
You can easily use several types of cells in a single list.
Using this library will protect you from the appearance of any business logic in an adapter.

Mar 17, 2017

Jsoup 里面对于标签的寻找使用的方法是 select() 方法，这个方法不要太强大了。咱们一步一步的来。

比如我们要在茫茫标签中找到

的话，拿这里就是应该 findElementByClass() ，那么在 Jsoup 中是怎么定义这一块的呢？

d32477589a8d?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

Jsoup-selector.png

哈哈，很easy嘛，那就是 document.select("div.project-info clearfix") 咯，当然不是这样子的，等等 class 属性里面这个空格是什么意思啊？是不是一脸懵逼？这里最终的写法是 document.select("div.project-info.clearfix") 空格需要用 . 来处理。

Elements select = document.select("div.project-info.clearfix");

这里得到是一个集合。我们接下来就需要遍历这个集合，然后把里面的每一个标签都拔出来。

title 部分的解析，这里是一个

里面嵌套了一个的标签。这里就涉及到了解析标签了。这里我们需要对应的 href，也需要对应的 text ， Jsoup 提供了对应的两个方法 attr() 和 text() 。

Elements elements = e.select("div.title");

if (!elements.isEmpty()) {

for (Element tittle : elements) {

Element first = tittle.select("a[href]").first();

if (first != null) {

title = first.text();

titleUrl = first.attr("href");

System.out.println("名称：" + title);

System.out.println("具体地址：" + titleUrl);

}

Elements select1 = tittle.select("a.tags");

if (!select1.isEmpty()) {

tag = select1.text();

tagUrl = select1.attr("href");

System.out.println("tags:" + tag);

System.out.println("tagUrl:" + tagUrl);

}

}

}

嵌套解析

到这里，

和

笨得掉进迷障

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。