Jsoup爬取网页上表格数据

最新推荐文章于 2024-08-22 11:00:00 发布

竹子_浅浅

最新推荐文章于 2024-08-22 11:00:00 发布

阅读量8.5k

点赞数 2

分类专栏： java基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013911563/article/details/50718117

版权

本文介绍了如何利用Jsoup库从网页抓取表格数据。首先，下载并导入Jsoup的jar包，通过Jsoup.connect(url).get()获取网页内容。接着，通过Document对象的select方法定位表格元素，例如doc.select("table")。对于多个表格，可以使用特定的class或其他属性进行区分。遍历tr元素获取每一行，再通过td元素获取单元格内容，如tds.get(j).text()，从而进行后续处理。

摘要由CSDN通过智能技术生成

首先，先下载jsoup的jar包，这个自己去网上搜一下吧，好多的，然后导入到程序中，方便使用。

下来，先得到你要获取的网页的内容，Document doc = Jsoup.connect(url).timeout(5000).get();

这里面的url就是你要爬取的网址，timeout(5000)设置了你爬取网页的最大时间，超出时间后就不再尝试了，一般网站不用设置的，只需要Document doc = Jsoup.connect(url).get();就可以获取该网页的内容，转为文档格式。

接下来，就是寻找你要获取的数据，这里主要讲网页中表格的数据如何获取，其他的类似。

你要明白你所要获取网页的html标签的结构，按F12进入开发者模式，寻找你所要获取的数据信息。

如果网页上只有一个表格，那就简单了：Elements elements1 = doc.select("table").select("tr");这一行代码就获得了网页上的表格中的行，返回的elements是该表格有多少行，如果是多个表格，那么select（）中的是该表格的标签，如它的class等属性，以确定你选择的是哪一个表格。

fo

最低0.47元/天解锁文章

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。