模块match的目的是从原始的未经标记化的源获取已清理的标记化字符串的偏移量(以及偏移量之间的字符串,用于调试)。你可能会说“很重要”,但如果原始文本足够混乱,更不用说充斥着Unicode字符,这实际上是一个相当困难的任务。
考虑一些文本,存储在变量原始文本中,例如:
我在写信!有时候,我忘了放空格(用标点符号做奇怪的事情)?我是奥瑞·尤恩·波姆,我是你的朋友!
这将/应该/可能正确标记为:[[u'i',u'am',u'writing',u'a',u'letter',u'!'],[你'有时',你',',你'我',你'忘记',你'到',你'放',你'空格',你'-lrb-',你'和',你'做',你'奇怪',你'东西',你'用',你'标点',你'-rrb-',你'?'],
[你“J'aurai”,你“une”,你“pomme”,你“,”你“s'il”,你“vous”,你“plxe2it”,你“!']]
现在:
在[22]:match.match(原文,[u'-lrb-',u'和',u'do',u'怪异',u'stuff',u'with',u'标点符号',u'-rrb-')
出[22]:[(6097,u'(用标点符号做奇怪的事情)]
在[23]:match.match(原文,[u'i',u'am',u'writing',u'a',u'letter',u'!'])
出[23]:[(0,25,你在写信!')]
在[24]中:匹配。匹配(原文,[u“s'il”,u“vous”,u“plxe2it”,u'!'])
出局[24]:[(121,138,你一定要出局!“)]
欢迎加入QQ群-->: 979659372
推荐PyPI第三方库