用正则表达式分析HTML

最新推荐文章于 2024-08-05 22:35:13 发布

castellan

最新推荐文章于 2024-08-05 22:35:13 发布

阅读量1.9k

点赞数

文章标签：正则表达式 html 工具

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/castellan/article/details/1595378

版权

我们可以用现成的很多工具来解析HTML。但我想如果能用正则表达式来做一些先期处理，剪裁掉不必要的内容或者抽取出必要的内容。这样也许可以获得更高的效率。当然使用正则表达式是否能获得更高的效率，这一点恐怕还不能得到验证。

我想还是先做些具体的事情，效率的问题我们可以慢慢考证。

1. 获取图片的源地址：

(?si)<img.*?src=[',",/s]*(.*?)[',",/s,>]

这个表达式不是抽取完整的<img *** >标签。因为我们只关心img 标签中的 src 属性，所以小括号中是我们真正获取的内容：(.*?)。[',",/s]*匹配了等号后是单引号、双引号或者是空格的情况。[',",/s,>]匹配了源地址后面是单引号、双引号或者是空格的情况。
(?si)匹配了忽略大小写和一行匹配（可能不是很确切，请查相关资料）。其中(?i)代表匹配大写和小写。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用正则表达式分析HTML

我们可以用现成的很多工具来解析HTML。但我想如果能用正则表达式来做一些先期处理，剪裁掉不必要的内容或者抽取出必要的内容。这样也许可以获得更高的效率。当然使用正则表达式是否能获得更高的效率，这一点恐怕还不能得到验证。我想还是先做些具体的事情，效率的问题我们可以慢慢考证。1. 获取图片的源地址：(?si)]这个表达式不是抽取完整的标签。因为我们只关心img 标签中的 src 属性，
复制链接

扫一扫

castellan CSDN认证博客专家 CSDN认证企业博客

码龄24年

14: 原创

26万+: 周排名

21万+: 总排名

5万+: 访问

: 等级

519: 积分

8: 粉丝

8: 获赞

8: 评论

41: 收藏

私信

关注

热门文章

分类专栏

最新评论

Linux下超轻量级Rust开发环境搭建：一、安装Rust
CSDN-Ada助手: 恭喜你写了第13篇博客！标题看起来很有吸引力，对于想要在Linux下搭建超轻量级Rust开发环境的读者来说，这篇文章一定会非常有帮助。不仅安装Rust是一个重要的步骤，而且我期待你在接下来的文章中继续分享更多关于Rust开发环境搭建的经验和技巧。也许你可以考虑介绍一些常用的Rust开发工具或者给出一些调试技巧，这样读者们能够更深入地了解如何在Linux中高效地进行Rust开发。谢谢你的分享，期待你的下一篇博客！
Linux下超轻量级Rust开发环境搭建：二、安装Helix Editor
CSDN-Ada助手: 恭喜您写了第14篇博客！标题看起来非常有趣，我很期待阅读您关于Linux下超轻量级Rust开发环境搭建的经验分享。您的持续创作真是令人钦佩！如果可能的话，我建议您在未来的博客中加入一些实用的技巧或者案例分析，这样读者可以更好地应用您的知识。再次恭喜您，并期待您的下一篇博客！
ubuntu 20.04下工作环境的搭建（企业微信、腾讯会议）
castellan: 先自己给自己评一下：目前，使用中发现两个问题： 1. 企业微信的下拉菜单会出现问题。闪一下就消失了 2. 无法粘贴图片。这两个问题我先抛出来。大家谨慎参考本文的内容
rust 静态编译可执行文件指南
果然dr: 楼主的.cargo/config 是怎么写的能否分享下
rust 静态编译可执行文件指南
rust小菜鸟: 难怪我发现我乌班图上的编译的ｃｅｎｔｏｓ上用不了　原来和ｇｏ不一样啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。