HTML的解析——Java

用Java解析html页面

import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class Test {  
    public static void main(String[] args){

        //···这里得到url和html
        //url为网址,html为网页,是需要提取获取的

        //解析html页面
        Document doc=Jsoup.parse(html, url);
        //获取title
        Elements es=doc.getElementsByTag("title");  //还有其他不同方法
        String title=es.text(); //text()方法是获取标签中内容,toString()方法是把es直接转换成String
        System.out.println(title);
        //获取标签内的属性值
        es=doc.getElementsByTag("a");
        for(int i=0;i<es.size();i++){
            String href=es.get(i).absUrl("href");
            System.out.println(href);
        }

        //获取某标签下的某标签下的某标签下的...(的某属性)的值
        //要确保路径正确,不一定要从head或body开始,可以直接通过id值,如doc.select("#article_content")
        //若要通过标签的属性class区别开的话用.,如doc.select("div>div.blog-content-box")
        //若属性值空格分卡的话,还是用.,如doc.select("div>div.article_content.clearfix") <div class="article_content clearfix">
        es=doc.select("head>title");
        System.out.println(es.text());

    }
}  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值