使用jsoup解析HTML,修改img标签的src属性

简介

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。(摘自百度百科)

jsoup虽然支持爬取网页源码,但仅仅支持HTTP,HTTPS协议。所以大多还是用来解析HTML。

查看了API发现用jsoup解析HTML可以是字符串,URL,文件。

文档

jsoup中文文档

介绍

本篇也是用jsoup解析HTML字符串内容,将里面的img标签中的src 的属性值给替换掉。

使用

pom.xml文件中添加依赖。版本可自行更改。

<dependency>
	<groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
    <version>1.10.2</version>
</dependency>
代码
	private static String dealImage(String html){
        Document doc = Jsoup.parse(html);//解析html
        Elements imgList = doc.body().getElementsByTag("img");//获取所有img标签
        for(Element element : imgList){
            String src = element.attr("src");//获取src属性值
            // TODO 处理src属性值
            element.attr("src",src);//修改src属性值
        }
        String newStr = doc.body().toString();//处理后的HTML
        return newStr.substring(6,newStr.length()-7); //首尾自带 body 标签,可截取掉
    }

jsoup的作用还有很多。因项目需求中,只涉及到更改img标签的src属性。还有很多功能强大的例子可以自己写个demo跑一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值