document解析html

解决一个问题有很多方法,虽然可以达到同样的目的,但是过程却是相差胜远.比如:从HTML代码片段里面获取img属性的值

我刚刚开始使用的是正则表达式去匹配,代码如下:

/** 
     * 得到网页中图片的地址 
     * @param sets html字符串 
     */  
    public  Set<String> getImgStr(String htmlStr) {  
        Set<String> pics = new HashSet<String>();  
        String img = "";  
        Pattern p_image;  
        Matcher m_image;  
        String regEx_img = "<img.*src\\s*=\\s*(.*?)[^>]*?>";  
        p_image = Pattern.compile(regEx_img, Pattern.CASE_INSENSITIVE);  
        m_image = p_image.matcher(htmlStr);  
        while (m_image.find()) {  
            // 得到<img />数据  
            img = m_image.group();  
            // 匹配<img>中的src数据  
            Matcher m = Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(img);  
            while (m.find()) {  
                pics.add(m.group(1));  
            }  
        }  
        return pics;  
    }  

运行过程中发现这种全字段去匹配的方式效率非常低,如果内容大点,会卡死.后面才知道java的document对象可以快速解析HTML代码

Document doc = Jsop.parse(htmlStr);
Elements imgNodeList = doc.select("img");
String src = "";
StringBuffer srcBase64s = new StringBuffer();
int n = 1;
for(Element imgNode : imgNodeList){
    src = imgNode.attr("src");
    if(src.contains("base64")){
        String srcBase64 = src.split(",")[1];
        if(n<imgNodeList).size()){
            srcBase64s.append(srcBase64).append(",");
            n++;
        }else{
            srcBase64s.append((srcBase64);
        }
    }
}
//转化为二进制存储,图片一般都是以二进制去存储的
Bytes.toBytes(srcBase64s.toString())

document是分节点去获取属性值,效率会高很多,其操作方式跟js,jQuery的方式类似,具体可以参照该https://blog.csdn.net/qq541976141/article/details/51162084博客

转载于:https://www.cnblogs.com/jzhxhs/p/9131854.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值