前言
我们都知道,个人开发者想要独立完成一个属于自己的App,数据来源就是一个不得不考虑的问题,那么我们App的数据通常是从哪些地方获取呢?主要是从以下三个地方获取的
- 后台服务器提供的Api接口
- 一些网站提供的Api接口。例如:聚合数据,干货集中营,玩Android开放Api等等还有很多,这里我只是抛砖引玉。
- 通过抓包软件对个别App做抓包操作得到的Api接口
- 通过爬虫获取各个网站的网页数据,在Android端主要使用的框架是Jsoup
我们今天要讲解的就是通过爬虫的这种方式,其它几种方式以后有空再进行讲解
什么是Jsoup框架
Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。Jsoup中文文档
首先我们要先找到简书网站的首页
我们要爬取的是简书首页的文章列表数据如下所示
通过F12快捷键或者点击右键的检查网页源代码可以找到文章列表所对应的源代码如下所示
然后我们就可以通过Jsoup框架获取html文档并一步步解析我们想要的元素数据封装到实体类中了
//获取Html,得到document文件,设置超时时间为10秒,get请求
document = Jsoup.connect("https://www.jianshu.com/")
.timeout(10000)
.get();
//得到ul类名为:note-list的元素,ul代表无序列表
Elements noteList = document.select("ul.note-list");
//得到li标签所对应的元素
Elements li = noteList.select("li");
//for each遍历li元素item里的所有元素并将数据封装到本地实体类中
for (Element element