解析出一个网页中所有的图片

题目是为了说明我这篇文章要实现的功能
实际上,知识点就是“正则表达式的介绍和使用”。

问题来源

在做项目的时候遇到了一个问题,就是如何从网页中解析所有的图片,注意!!!这里是“所有”。当时我的第一反应是立刻到网上寻找第三方库,但是,找到的最好的第三方库都和我的问题没有关系,最有关系的就是Java中知道的JavaScript脚本引擎ScriptEngine,可是看了半天还是没看懂这个引擎是在干嘛,所有并没有什么卵用。

既然网上没有现成的第三方库,那么就退而求其次,解析图片的没有,解析HTML的工具总会是有的吧,这里到网上随便搜一搜,就出来了一个工具HtmlParser,这个工具可以帮我们解析HTML正文,包括标签对里面的内容,比如balabala,可以解析balabala;也可以解析标签中的属性,比如可以解析img标签中的src属性,这就是一个图片的地址。

说到这里,似乎有了点头绪,总算有一些图片可以被解析出来了,就是提取img标签中的src属性中的地址,我就试着提取了一下,将提取出来的地址做了一下记录。然后用普通的文本编辑器,比如sublime,我把整个网页的源码粘贴到了编辑器中,搜索以.jpg”这五个连续字符,虽然这中方法很不严谨,但是依然可以粗略的观察到,我们所提取出来的图片地址远远少于整个网页中应该有的图片数量。继续在sublime编辑器里面观察,发现有大量的图片地址出现在JavaScript脚本中,因为我之前不熟悉JavaEE方面的开发,咋看之下存在于JavaScript脚本语言中的地址似乎是以JSON格式存放的,一分钟以后我就发

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值