Android实战之Jsoup爬取简书网站首页详解

最新推荐文章于 2024-05-15 09:31:30 发布

Bryce李小白

最新推荐文章于 2024-05-15 09:31:30 发布

阅读量1.4k

点赞数

分类专栏： Android知识体系 Web前端知识体系文章标签： Android 前端 Jsoup 混合开发 Android与html交互

本文链接：https://blog.csdn.net/lijizhi19950123/article/details/83515185

版权

前言

我们都知道，个人开发者想要独立完成一个属于自己的App，数据来源就是一个不得不考虑的问题，那么我们App的数据通常是从哪些地方获取呢？主要是从以下三个地方获取的

后台服务器提供的Api接口
一些网站提供的Api接口。例如：聚合数据，干货集中营，玩Android开放Api等等还有很多，这里我只是抛砖引玉。
通过抓包软件对个别App做抓包操作得到的Api接口
通过爬虫获取各个网站的网页数据，在Android端主要使用的框架是Jsoup

我们今天要讲解的就是通过爬虫的这种方式,其它几种方式以后有空再进行讲解

什么是Jsoup框架

Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。Jsoup中文文档

首先我们要先找到简书网站的首页

简书网站首页

我们要爬取的是简书首页的文章列表数据如下所示

在这里插入图片描述

通过F12快捷键或者点击右键的检查网页源代码可以找到文章列表所对应的源代码如下所示

在这里插入图片描述

然后我们就可以通过Jsoup框架获取html文档并一步步解析我们想要的元素数据封装到实体类中了

 //获取Html，得到document文件，设置超时时间为10秒，get请求
 document = Jsoup.connect("https://www.jianshu.com/")
 .timeout(10000)
 .get();
 
 //得到ul类名为:note-list的元素，ul代表无序列表
 Elements noteList = document.select("ul.note-list");

 //得到li标签所对应的元素
 Elements li = noteList.select("li");

//for each遍历li元素item里的所有元素并将数据封装到本地实体类中
  for (Element element

最低0.47元/天解锁文章

Bryce李小白

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
Android实战之Jsoup爬取简书网站首页详解

前言我们都知道，个人开发者想要独立完成一个属于自己的App，数据来源就是一个不得不考虑的问题，那么我们App的数据通常是从哪些地方获取呢？主要是从以下三个地方获取的后台服务器提供的Api接口一些网站提供的Api接口。例如：聚合数据，干货集中营，玩Android开放Api等等还有很多，这里我只是ingwei抛砖引玉。通过抓包软件对个别App做抓包操作得到的Api接口通过爬虫获取各个网...
复制链接

扫一扫