使用Python中的正则表达式处理html文件

最新推荐文章于 2024-04-09 10:34:55 发布

the only KIrsTEN

最新推荐文章于 2024-04-09 10:34:55 发布

阅读量1.7k

点赞数 1

分类专栏：语音和文本处理(Python) 文章标签： python 正则表达式开发语言自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kirsten111111/article/details/127723977

版权

语音和文本处理(Python) 专栏收录该内容

25 篇文章 2 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

使用Python中的正则表达式处理html文件

finditer方法是一种全匹配方法。您可能已经使用了findall方法，它返回多个匹配字符串的列表。finditer返回一个迭代器顺序地为多个匹配中的每一个生成匹配对象。在下面的代码中，这些匹配对象被访问（通过for循环），因此可以打印组1。
您的任务是编写Python RE来识别HTML文本文件中的某些模式。将代码添加到STARTER脚本为这些模式编译RE（将它们分配给有意义的变量名称），并将这些RE应用于文件的每一行，打印出找到的匹配项。
1.编写识别HTML标签的模式，然后将其打印为“TAG:TAG string”（例如“TAG:b”代表标签）。为了简单起见，假设左括号和右括号每个标记的（<，>）将始终出现在同一行文本中。第一次尝试可能使regex“<.*>”其中“.”是与任何字符匹配的预定义字符类符号。尝试找出这一点，找出为什么这不是一个好的解决方案。编写一个更好的解决方案，解决这个问题
2.修改代码，使其区分开头和结尾标记（例如p与/p)打印OPENTAG和CLOSETAG


import sys, re

#------------------------------

testRE = re.

了解本专栏

超级会员免费看

the only KIrsTEN

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
使用Python中的正则表达式处理html文件

例如，正则表达式，如：r" (\w+) \1 仅当与组（\w+）完全匹配的字符串再次出现时才匹配 backref\1出现的位置。在下面的代码中，这些匹配对象被访问（通过for循环），因此可以打印组1。将代码添加到STARTER脚本为这些模式编译RE（将它们分配给有意义的变量名称），并将这些RE应用于文件的每一行，打印出找到的匹配项。一个HTML文件，并返回一个纯文本文件，所有HTML标记都已从中删除出来这里我们不打算这样做，而是考虑一个更简单的例子，即删除我们在输入数据文件的任何行中找到的HTML标记。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。