公共正则表达式
(1)提取源码中href
/href=[\s]{0,1}\"(.+?)\"/gm
(2)提取网页源码中的src 或data-src
/src=[\s]{0,1}\"(.+?)\"/gm
/data-src=[\s]{0,1}\"(.+?)\"/gm
1、提取页面的中包含.css后缀的link标签,再结合href正则,可以提取
/<link[\s]+\w+[^>]+\.css[\s]{0,1}"[\s]{0,1}>/gm
/href=[\s]{0,1}\"(.+?)\"/gm
2、提取页面的中包含.js后缀的script标签,再结合src正则,可以提取
/<script[\s]+\w+[^>]+\.js[\s]{0,1}"[\s]{0,1}>/gm
/src=[\s]{0,1}\"(.+?)\"/gm
3、提取页面的img标签,再结合src、data-src正则,可以提取
/<img[\s]+\w+[^>]+>/gm
/src=[\s]{0,1}\"(.+?)\"/gm
/data-src=[\s]{0,1}\"(.+?)\"/gm
4、提取页面link标签,此操作包含提取css样式文件及其他文件(如favicon.ico、.svg等)
/<link[\s]+\w+[^>]+>/gm
/href=([\w|.|/]+)[\s]{0,1}/gm #包括favicon.ico、svg
/href=[\s]{0,1}\"(.+?)\"/gm # 站外链接(包括css)
注意:提取后的链接要进行去重
其他参考地址:
https://wenku.baidu.com/view/ee015cf8941ea76e58fa04fd.html?sxts=1575431073475