Android基础学习总结（十三）——利用jsoup解析html实现网络爬虫

最新推荐文章于 2023-05-15 16:55:18 发布

万般滋味皆生活

最新推荐文章于 2023-05-15 16:55:18 发布

阅读量372

点赞数

分类专栏： Android 文章标签：爬虫 jsoup

本文链接：https://blog.csdn.net/kilotwo/article/details/79207336

版权

Android 专栏收录该内容

23 篇文章 4 订阅

订阅专栏

引言

很多时候，我们需要从各种网页上面抓取数据，而 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。我认为对初学者来说非常实用，可以轻松爬取大多数网站的所需要的信息。

jsoup官方文档：
https://jsoup.org/cookbook/
中文文档：
http://www.open-open.com/jsoup/

导入依赖包

Android studio玩家可以不下载jar包,在Gradle里面加入

dependencies {
      compile 'org.jsoup:jsoup:1.11.2.'
}

开始爬取数据

找到想爬的网页，右键查看网页源码，或者按F12，这里推荐火狐或者谷歌浏览器，接下来可以看到一大堆标签：
这里写图片描述
找到需要的，例如上图这个 “美食天下” ，可以看到 “美食天下” 是放在以<div class="top-bar" id="J_top_bar"> 为节点的

try {    
    //从一个URL加载一个Document对象。
    Document doc = Jsoup.connect("http://home.meishichina.com/show-top-type-recipe.html").get();
    //选择“美食天下”所在节点
    Elements elements = doc.select("div.top-bar");    
    //打印 <a>标签里面的title
    Log.i("mytag",elements.select("a").attr("title"));
}catch(Exception e) {    
    Log.i("mytag", e.toString());
}

打印出来的结果：

Jsoup.connect(String url)方法从一个URL加载一个Document对象。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。
一旦拥有了一个Document，你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。

再举一个具体例子(多打几个log)：

下图红色框框是我们要获取的数据，可以看到他们对应的节点就是蓝色圆圈里面的<div class="xxx">

解决方法：
使用 Jsoup.connect(String url)方法:

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

来看代码：

try {    
    //还是一样先从一个URL加载一个Document对象。
    Document doc = Jsoup.connect("http://home.meishichina.com/show-top-type-recipe.html").get();

    //“椒麻鸡”和它对应的图片都在<div class="pic">中
    Elements titleAndPic = doc.select("div.pic");
    //使用Element.select(String selector)查找元素，使用Node.attr(String key)方法取得一个属性的值
    Log.i("mytag", "title:" + titleAndPic.get(1).select("a").attr("title") + "pic:" + titleAndPic.get(1).select("a").select("img").attr("data-src"));

    //所需链接在<div class="detail">中的<a>标签里面
    Elements url = doc.select("div.detail").select("a");
    Log.i("mytag", "url:" + url.get(i).attr("href"));

    //原料在<p class="subcontent">中
    Elements burden = doc.select("p.subcontent");
    //对于一个元素中的文本，可以使用Element.text()方法
    Log.i("mytag", "burden:" + burden.get(1).text());

}catch(Exception e) {    
    Log.i("mytag", e.toString());
}

注意：

Jsoup.connect(String url)方法不能运行在主线程，否则会报NetworkOnMainThreadException

小结

整个过程分几步:
1.下载jar包并丢到libs(或者在gradle)
2.找到心仪的网页
3.用Jsoup.connect()获取网页的document
4.查看网页源码，对准你想要的地方，给他来一个Element.select(String selector)
5.用Node.attr(String key)或者Element.text()方法把数据抽出来

部分参考https://www.jianshu.com/p/a620a2664f58，再次感谢

万般滋味皆生活

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Android基础学习总结（十三）——利用jsoup解析html实现网络爬虫

引言很多时候，我们需要从各种网页上面抓取数据，而 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。我认为对初学者来说非常实用，可以轻松爬取大多数网站的所需要的信息。 jsoup官方文档： https://jsoup.org/cook
复制链接

扫一扫