提取网页源码中的css、js、img常用正则表达式

公共正则表达式

(1)提取源码中href

/href=[\s]{0,1}\"(.+?)\"/gm

(2)提取网页源码中的src 或data-src

/src=[\s]{0,1}\"(.+?)\"/gm

/data-src=[\s]{0,1}\"(.+?)\"/gm

 

1、提取页面的中包含.css后缀的link标签,再结合href正则,可以提取

/<link[\s]+\w+[^>]+\.css[\s]{0,1}"[\s]{0,1}>/gm

/href=[\s]{0,1}\"(.+?)\"/gm

2、提取页面的中包含.js后缀的script标签,再结合src正则,可以提取

/<script[\s]+\w+[^>]+\.js[\s]{0,1}"[\s]{0,1}>/gm

/src=[\s]{0,1}\"(.+?)\"/gm

3、提取页面的img标签,再结合src、data-src正则,可以提取

/<img[\s]+\w+[^>]+>/gm

/src=[\s]{0,1}\"(.+?)\"/gm

/data-src=[\s]{0,1}\"(.+?)\"/gm

4、提取页面link标签,此操作包含提取css样式文件及其他文件(如favicon.ico、.svg等)

/<link[\s]+\w+[^>]+>/gm    

/href=([\w|.|/]+)[\s]{0,1}/gm     #包括favicon.ico、svg

/href=[\s]{0,1}\"(.+?)\"/gm      # 站外链接(包括css)

 

注意:提取后的链接要进行去重

其他参考地址:

https://regex101.com/    

https://wenku.baidu.com/view/ee015cf8941ea76e58fa04fd.html?sxts=1575431073475

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值