1要提取大量烧成的一部分。有一个目标词和之前和之后单词的数量上限。因此所提取的子必须包含单词之前和之后它的上界目标字一起。在之前和之后的部分可以包含少言,如果目标字更接近文本的开头或结尾。
进行了串
"Lorem存有胡萝卜,增强大学生开发者,但他们occaecat时间和活力,如劳动力和肥胖。多年来来,谁nostrud锻炼,学区工作,除非他们aliquip优势来自它。作业如果cupidatat消费者找到乐趣想成为一名足球cillum他要躲避痛苦,不会产生任何结果。excepteur cupidatat黑人就不是excepteur,是舒缓的灵魂,那就是,他们抛弃了那些谁是责怪你的烦恼的一般责任。"
目标的话,工作
words_before:5
words_after:2
应该返回['veniam, quis nostrud exercitation ullamco laboris nisi ut']
1个思想几个可能的模式,但没有一次成功。 1猜它也可以通过简单地遍历发射前,从目标背单词做。不过正则表达式肯定会令事情变得更容易。任何帮助,将不胜感激。
感谢所有的答案。 所有这些都按预期工作。 正则表达式对我来说最方便,因为我的字符串中填充了非字母字符!
如果要拆分单词,可以使用slice()和split()功能。 例如:
>>> text ="Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod
tempor incididunt ut labore et dolo