**目的:**从数千条类似数据中取出“NP_”部分
例如:NP_000229.1:p.Val41Gly,并将其转化为“NP_000229.1 41 V G”的形式(用于PolyPhen2和SIFT的SNP预测)
1.测试匹配:
content = 'NP_000229.1:p.Val41Gly,NP_000229.1:p.Val41Ala,NP_742053.1:p.Val41Gly'
NPre = re.compile(r'NP_\d+.\d:p.[A-Z][a-z]+\d+[A-Z][a-z]+')
NP = NPre.findall(content)
print(NP)
2.再将需要的部分用()括起来:
NPre = re.compile(r'(NP_\d+.\d):p.([A-Z][a-z]+)(\d+)([A-Z][a-z]+)')