有很多时候会有这样的需求,获取一个网页中图片的路径,在Java中,可以使用Pattern类、Matcher类,配合正则表达式来获取一个字符串中需要的特定内容。
首先来看一下网页中一个<img>标签所处的位置,例如:String content =“<html>...<div><img alt ='xxx' src='yyy'><img alt='xxx' src='mmm'></div></html>”,其中img标签可能的格式为 <img>或<IMG>,标签结束方式可能为<img ... > 或者 <img ... />或者<img ...></img> ;为了代码有更好的鲁棒性,所以在匹配文本的时候,这些情况都需要考虑到。
我的具体思路就是,先获取到img 标签的内容,然后对获取到的内容进行二次匹配,从而获取到一个图片地址列表。这里边最核心的地方就在于两次匹配的正则表达式。以获取上边的content中的地址为例: