Android实战之Jsoup爬取简书网站首页详解

前言

我们都知道,个人开发者想要独立完成一个属于自己的App,数据来源就是一个不得不考虑的问题,那么我们App的数据通常是从哪些地方获取呢?主要是从以下三个地方获取的

  • 后台服务器提供的Api接口
  • 一些网站提供的Api接口。例如:聚合数据干货集中营玩Android开放Api等等还有很多,这里我只是抛砖引玉。
  • 通过抓包软件对个别App做抓包操作得到的Api接口
  • 通过爬虫获取各个网站的网页数据,在Android端主要使用的框架是Jsoup

我们今天要讲解的就是通过爬虫的这种方式,其它几种方式以后有空再进行讲解

什么是Jsoup框架

Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。Jsoup中文文档

首先我们要先找到简书网站的首页

简书网站首页

我们要爬取的是简书首页的文章列表数据如下所示

在这里插入图片描述

通过F12快捷键或者点击右键的检查网页源代码可以找到文章列表所对应的源代码如下所示

在这里插入图片描述

然后我们就可以通过Jsoup框架获取html文档并一步步解析我们想要的元素数据封装到实体类中了
 //获取Html,得到document文件,设置超时时间为10秒,get请求
 document = Jsoup.connect("https://www.jianshu.com/")
 .timeout(10000)
 .get();
 
 //得到ul类名为:note-list的元素,ul代表无序列表
 Elements noteList = document.select("ul.note-list");

 //得到li标签所对应的元素
 Elements li = noteList.select("li");

//for each遍历li元素item里的所有元素并将数据封装到本地实体类中
  for (Element element 
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值