【java】html解析

一、首推Jsoup(凭直接首推的,对该类库不熟悉)

中文文档: http://www.open-open.com/jsoup/parsing-a-document.htm

Jsoup使用:  http://www.iteye.com/topic/1010581

最简单实用: http://hongmin118.iteye.com/blog/1229705

/**
     * 解析一个html字符串,只得到此字符串中的文本
     * @param html
     * @return
     */
    public static String html2txt(String html) {
        //<span style="color: rgb(229, 51, 51); background-color: rgb(0, 153, 0); font-weight: bold; font-style: italic; text-decoration: underline;">测试1</span>
        Document document = Jsoup.parse(html);
        String content = document.text();
        return content;
    }

自己的代码:

//读取了html的全部文字部分,没有标签
//data可以是不完整的html页面数据
Document doc = Jsoup.parse(data);
text = doc.text();

//获取全部图片标签
media = doc.select("img[src]");
//获取标签的链接
String imgurl = src.attr("abs:src");

 

二、htmlparser

使用:http://free0007.iteye.com/blog/1131163

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值