用正则表达式分析HTML

我们可以用现成的很多工具来解析HTML。但我想如果能用正则表达式来做一些先期处理, 剪裁掉不必要的内容或者抽取出必要的内容。这样也许可以获得更高的效率。当然使用正则表达式是否能获得更高的效率,这一点恐怕还不能得到验证。

我想还是先做些具体的事情,效率的问题我们可以慢慢考证。

1. 获取图片的源地址:

(?si)<img.*?src=[',",/s]*(.*?)[',",/s,>]

这个表达式不是抽取完整的<img *** >标签。因为我们只关心img 标签中的 src 属性,所以小括号中是我们真正获取的内容:(.*?)。[',",/s]*匹配了等号后是单引号、双引号或者是空格的情况。[',",/s,>]匹配了源地址后面是单引号、双引号或者是空格的情况。
(?si)匹配了忽略大小写和一行匹配(可能不是很确切,请查相关资料)。其中(?i)代表匹配大写和小写。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值