JAVA获取html网页中的图片src内容

本文介绍如何使用Java的Pattern和Matcher类,结合正则表达式,从HTML网页内容中提取图片的src路径。针对不同格式的标签,如,设计了相应的正则表达式,通过两次匹配获取所有图片地址。
摘要由CSDN通过智能技术生成

有很多时候会有这样的需求,获取一个网页中图片的路径,在Java中,可以使用Pattern类、Matcher类,配合正则表达式来获取一个字符串中需要的特定内容。

首先来看一下网页中一个<img>标签所处的位置,例如:String content =“<html>...<div><img alt ='xxx' src='yyy'><img alt='xxx' src='mmm'></div></html>”,其中img标签可能的格式为 <img>或<IMG>,标签结束方式可能为<img ... > 或者 <img ... />或者<img ...></img>  ;为了代码有更好的鲁棒性,所以在匹配文本的时候,这些情况都需要考虑到。

我的具体思路就是,先获取到img 标签的内容,然后对获取到的内容进行二次匹配,从而获取到一个图片地址列表。这里边最核心的地方就在于两次匹配的正则表达式。以获取上边的content中的地址为例:



                
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值