java解析html代码,采集网页信息

通常情况下,多采用python进行爬虫编写,但是如果在java项目中也有类似需求应该如何操作呢?

本文讲简单介绍一种解析html代码,采集网页信息的思路。

本文根据以某网站为例,简单讲述一下采集的流程以及需要用到的知识点。

 <!--解析HTML工具包-->

        <dependency>

            <groupId>org.jsoup</groupId>

            <artifactId>jsoup</artifactId>

            <version>1.14.3</version>

        </dependency>

Jsoup库简介

Jsoup是一个用于处理HTML的Java库,可以用来解析、操作和生成HTML文档。它提供了非常方便的API来解析HTML文档,提取数据,修改内容,以及生成新的HTML文档。

Document对象

DocumentJsoup中的一个核心类,它代表了整个HTML文档。

一旦你有了一个Document对象,你可以使用各种方法来选择元素、获取属性、改变内容等。例如,你可以使用doc.select("a")来选取文档中所有的<a>标签,或者使用doc.body()来获取文档的<body>部分。

HTML文档

Jsoup.parse()方法用于解析HTML内容并将其转换为一个可操作的Document对象。这个方法可以接受多种类型的参数:字符串(HTML内容)、文件路径、URL等。

1.

选择某网站,首先应该分析网站的结构,并根据自己的需求希望获取到的数据信息。

2. 

按下F12,点解左上角选择按钮,选择到想要截取的部分,点击右侧html代码部分右键,复制选择器。

对于每个公告选择出来的选择器,我们通过观察可以看出:

body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(1)

body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(2)

body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(3)

body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(4)

3.

我们可以通过body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li 选择器来依次遍历选择到每一个公告的html代码。

4.

如果我们选择器选择的是:body > div.mainBox.clearfix > div.container.listBox > div.pageList.newsList.news-list-yw > ul > li:nth-child(1),则会选择到第一个公告。

5.

如上图多段相似结构html代码:<Li>…</Li>,在页面为多个公告。

6.

同样我们可以通过选择到具体信息的选择器来提取更为精细的内容。例如时间、 日期、公告名称等等,都可以用相同的方式去复制选择器,通过doc.select("a")来选取文档中所有的<a>标签,最终实现信息抓取的效果。

  • 67
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不柔情

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值