我有以下问题.我希望找到一个通常看起来像这样的字符串中的所有单词
HelloWorldToYou
请注意,每个单词都大写为开头,后跟下一个单词,依此类推.
我想从中创建一个单词列表.所以最终的预期输出是一个看起来像的列表
['Hello','World','To','You']
在Python中,我使用了以下内容
mystr = 'HelloWorldToYou'
pat = re.compile(r'([A-Z](.*?))(?=[A-Z]+)')
[x[0] for x in pat.findall(mystr)]
['Hello', 'World', 'To']
但是,我无法捕捉到“你”的最后一个字.有办法解决这个问题吗?
提前致谢
解决方法:
使用$替换:
import re
mystr = 'HelloWorldToYou'
pat = re.compile(r'([A-Z][a-z]*)')
# or your version with `.*?`: pat = re.compile(r'([A-Z].*?)(?=[A-Z]+|$)')
print pat.findall(mystr)
输出:
['Hello', 'World', 'To', 'You']
正则表达式解释:
>([A-Z] [a-z] *) – 匹配的捕获组
> [A-Z]一封大写的英文字母
> [a-z] * – 可选的小写英文字母数
-要么-
>.*? – 懒惰地匹配换行符以外的任何字符
如果我们使用[a-z] *,可以省略前瞻,但如果使用.* ?,则使用它:
>(?= [A-Z] | $) – 最多为大写英文字母(我们实际上可以删除),或字符串结尾($).
如果您不使用预见版本,您甚至可以删除捕获组以获得更好的性能和use finditer:
import re
mystr = 'HelloWorldToYou'
pat = re.compile(r'[A-Z][a-z]*')
print [x.group() for x in pat.finditer(mystr)]
标签:python,regex,list
来源: https://codeday.me/bug/20190612/1222352.html