html标签

最新推荐文章于 2023-07-14 18:04:08 发布

「已注销」

最新推荐文章于 2023-07-14 18:04:08 发布

阅读量126

点赞数

分类专栏： Python爬虫文章标签： python 爬虫 html 正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71786020/article/details/126259322

版权

Python爬虫专栏收录该内容

16 篇文章 1 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

学习目标：初步了解html标签，再用正则寻找标签。

上次我们了解了html，但是我们要利用html，必须对html标签足够的认识。

双标签一般以以下格式出现：

<标签名参数名="参数">文本</标签名>

单标签则是这样：

<标签名参数名="参数">

因此，我们可以得出结论：标签都是有一定格式和规律，所以，我们就可以用正则表达式寻找html标签。

我们准备好示例html代码：

<p>text</p>

<a href="url">text</a>

这里有两段代码(p标签和a标签的段落)，接下来寻找a标签的段落：

import re

htmlstr="""示例html代码"""

l=recmpile('<a.*>.*</a>').findall(htmlstr)

print(l)

我们按照a标签的格式，re的findall（虽然没必要，但是如果内容点多就有必要了）寻找a标签的段落。

输出一个列表：

['<a href="url">text</a>']

因为只有一个符合条件，所以列表中只有一项。

但是，用re模块十分复杂，容易出错，所以，下次我们使用一个专门用于解析html的模块，让解析更方便。

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
html标签

学习目标：初步了解html标签，再用正则寻找标签。上次我们了解了html，但是我们要利用html，必须对html标签足够的认识。双标签一般以以下格式出现：<标签名参数名="参数">文本</标签名> 单标签则是这样：<标签名参数名="参数">因此，我们可以得出结论：标签都是有一定格式和规律，所以，我们就可以用正则表达式寻找html标签。我们准备好示例html代码：<p>text</p&gt...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。