java 解析html

最新推荐文章于 2024-06-04 11:26:05 发布

jun123355

最新推荐文章于 2024-06-04 11:26:05 发布

阅读量3.6k

点赞数

文章标签： java html 前端

本文链接：https://blog.csdn.net/jun123355/article/details/126459050

版权

JAVA 解析HTML
依赖

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.14.1</version>
        </dependency>

代码实现

新建方法：
Document doc = Jsoup.connect(“网站”).get();

通过引入的依赖就会被解析成节点个数
接下来就是需要根据需求解析docm tree

具体解析需要解析的htm 中的class ，寻找A标签包含的数据。

Element searchInfo= doc.getElementsByClass(“content jtdt_div”).first();
Elements elements = searchInfo.getElementsByTag(“a”);

@Override
public int getInfo() throws IOException {
    Document doc = Jsoup.connect("网站“).get();
    Element searchInfo= doc.getElementsByClass("content jtdt_div").first();
    Elements elements = searchInfo.getElementsByTag("a");
    for (Element element : elements) {
        String relHref = element.attr("href"); // == "/"这个是href的属性值，一般都是链接。这里放的是文章的连接
        String text = element.attr("title");
        RealTimeInfoEntity realTimeInfoEntity = new RealTimeInfoEntity();
        realTimeInfoEntity.setInfoName(text);
        realTimeInfoEntity.setInfoUrl(relHref);
    }
    return 1;
}