HTML的解析——Java

最新推荐文章于 2024-06-24 16:41:03 发布

stdev

最新推荐文章于 2024-06-24 16:41:03 发布

阅读量466

点赞数

分类专栏： Java

本文链接：https://blog.csdn.net/qq_20366761/article/details/81985439

版权

Java 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

用Java解析html页面

import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class Test {  
    public static void main(String[] args){

        //···这里得到url和html
        //url为网址，html为网页，是需要提取获取的

        //解析html页面
        Document doc=Jsoup.parse(html, url);
        //获取title
        Elements es=doc.getElementsByTag("title");  //还有其他不同方法
        String title=es.text(); //text()方法是获取标签中内容，toString()方法是把es直接转换成String
        System.out.println(title);
        //获取标签内的属性值
        es=doc.getElementsByTag("a");
        for(int i=0;i<es.size();i++){
            String href=es.get(i).absUrl("href");
            System.out.println(href);
        }

        //获取某标签下的某标签下的某标签下的...（的某属性）的值
        //要确保路径正确，不一定要从head或body开始，可以直接通过id值，如doc.select("#article_content")
        //若要通过标签的属性class区别开的话用.，如doc.select("div>div.blog-content-box")
        //若属性值空格分卡的话，还是用.，如doc.select("div>div.article_content.clearfix") <div class="article_content clearfix">
        es=doc.select("head>title");
        System.out.println(es.text());

    }
}

stdev

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HTML的解析——Java

用Java解析html页面import org.jsoup.nodes.Document;import org.jsoup.select.Elements;public class Test { public static void main(String[] args){ //···这里得到url和html //url为网址，html为网页...
复制链接

扫一扫

专栏目录