Android利用jsoup抓取网页数据

最新推荐文章于 2021-03-05 17:07:25 发布

koma森

最新推荐文章于 2021-03-05 17:07:25 发布

阅读量544

点赞数

分类专栏： Android 文章标签： android

本文链接：https://blog.csdn.net/koma025/article/details/52457944

版权

Android 专栏收录该内容

18 篇文章 2 订阅

订阅专栏

今天写了一个通过jsoup抓取网页的内容的例子。jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
用学校网页做例子，把首页的新闻的信息抓取出来，放到客户端的列表中。

网页的html代码如下：
<table class="table table-condensed">
<tr><td style="padding-right:0px">
<a href="info/1103/16916.htm" target="_blank" title="纪律教育学习月启动　首次学习围绕党纪党规展开" class="my-panel-item">纪律教育学习月启动　首次学习围绕党纪党规展开</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-07 </td></tr>
<tr><td style="padding-right:0px">
<a href="info/1103/16915.htm" target="_blank" title="学校要求加快科技园肇梦空间建设进度" class="my-panel-item">学校要求加快科技园肇梦空间建设进度</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-06 </td></tr>
<tr><td style="padding-right:0px">
<a href="info/1103/16909.htm" target="_blank" title="我校新增３项国家基金项目　资助金额５９万元" class="my-panel-item">我校新增３项国家基金项目　资助金额５９万元</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-05 </td></tr>
<tr><td style="padding-right:0px">
<a href="info/1103/16906.htm" target="_blank" title="本网评论：做好换届选举工作　落实根本政治制度" class="my-panel-item">本网评论：做好换届选举工作　落实根本政治制度</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-02 </td></tr>
<tr><td style="padding-right:0px">
<a href="info/1103/16908.htm" target="_blank" title="科技园肇梦众创空间分别获得国家级省级名片" class="my-panel-item">科技园肇梦众创空间分别获得国家级省级名片</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-02 </td></tr>
<tr><td style="padding-right:0px">
<a href="info/1103/16902.htm" target="_blank" title="省厅督查开学工作　给予我校充分肯定" class="my-panel-item">省厅督查开学工作　给予我校充分肯定</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-01 </td></tr>
<tr><td style="padding-right:0px">
<a href="info/1103/16897.htm" target="_blank" title="党委书记校长分别主讲新学期第一堂思政课" class="my-panel-item">党委书记校长分别主讲新学期第一堂思政课</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-01 </td></tr>
<tr><td style="padding-right:0px">
<a href="info/1103/16901.htm" target="_blank" title="我校科研项目喜获中央财政支持专项资金７００万元" class="my-panel-item">我校科研项目喜获中央财政支持专项资金７００万元</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-01 </td></tr>
<tr><td style="padding-right:0px">
<a href="info/1103/16896.htm" target="_blank" title="我校召开中层干部会议　明确迎评为本学期中心工作" class="my-panel-item">我校召开中层干部会议　明确迎评为本学期中心工作</a>
</td>
<td align="right" class="my-panel-item-date" style="padding-left:0px;padding-top:8px">09-01 </td></tr>
</table>

因为没有新闻图片，我就只抓取了新闻的链接、标题和日期，下面就是抓取的代码：

public List<News> getData(String url){
List<News> newsList = new ArrayList<>();
Document document = null;
try {
document = Jsoup.connect(url).get();
} catch (IOException e) {
e.printStackTrace();
}
// 获取目标HTML代码
Elements item = document.select("[class=table table-condensed]");
int total = 0;
for(int i = 0; i < item.size(); i++){
if(i != 2){
Elements href = item.get(i).select("a");
Elements td = item.select("td");
if(i == 3){
total ++;
}
for(int j = 0; j < href.size(); j ++){
News news = new News();

String uri = href.get(j).attr("href");
String title = href.get(j).attr("title");
String date = td.get(total*2+1).text();

news.setTitie(title);
news.setUrl(uri);
news.setDate(date);

newsList.add(news);
total ++;
}
}
}
return newsList;
}

主要解释的代码是获取html的代码：
Elements item = document.select("[class=table table-condensed]")是解析table的class，class的名称要完全一样，有空格也要打进去
然后遍历整个网页的所有这个table，为什么我这里i!=2,是因为学校的网页的第三个table不是新闻链接，只是两个普通链接，所以我这里要去掉
Elements href = item.get(i).select("a") 这是获取table里面的<a>标签，然后既可以根据获取到的数据获取里面的属性值了，就是下面这段代码了

最后获取到效果图如下，点击列表的item可以进入新闻的详情页。

koma森

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Android利用jsoup抓取网页数据

今天写了一个通过jsoup抓取网页的内容的例子。jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。用学校网页做例子，把首页的新闻的信息抓取出来，放到客户端的列表中。网页的html代码如下：纪律教育学习月启动　首次学习围绕
复制链接

扫一扫