python match_Python match包_程序模块 - PyPI - Python中文网

最新推荐文章于 2023-09-12 09:00:00 发布

weixin_39637233

最新推荐文章于 2023-09-12 09:00:00 发布

阅读量368

点赞数

文章标签： python match

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39637233/article/details/111419189

版权

模块match的目的是从原始的未经标记化的源获取已清理的标记化字符串的偏移量(以及偏移量之间的字符串，用于调试)。你可能会说“很重要”，但如果原始文本足够混乱，更不用说充斥着Unicode字符，这实际上是一个相当困难的任务。

考虑一些文本，存储在变量原始文本中，例如：

我在写信！有时候，我忘了放空格(用标点符号做奇怪的事情)？我是奥瑞·尤恩·波姆，我是你的朋友！

这将/应该/可能正确标记为：[[u'i'，u'am'，u'writing'，u'a'，u'letter'，u'！']，[你'有时'，你'，'，你'我'，你'忘记'，你'到'，你'放'，你'空格'，你'-lrb-'，你'和'，你'做'，你'奇怪'，你'东西'，你'用'，你'标点'，你'-rrb-'，你'？']，

[你“J'aurai”，你“une”，你“pomme”，你“，”你“s'il”，你“vous”，你“plxe2it”，你“！']]

现在：

在[22]：match.match(原文，[u'-lrb-'，u'和'，u'do'，u'怪异'，u'stuff'，u'with'，u'标点符号'，u'-rrb-')

出[22]：[(6097，u'(用标点符号做奇怪的事情)]

在[23]：match.match(原文，[u'i'，u'am'，u'writing'，u'a'，u'letter'，u'！'])

出[23]：[(0，25，你在写信！')]

在[24]中：匹配。匹配(原文，[u“s'il”，u“vous”，u“plxe2it”，u'！'])

出局[24]：[(121，138，你一定要出局！“)]

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

weixin_39637233

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。