regular expression(regex)
a表示可以匹配到空、a、aa、aaa、…
空格表示前面可以没空格,也可以有一个或几个空格
空格+表示可以匹配到a、aa、aaa、…(没有空)
set()添加用add
\d 一个数字
import re
text=''
file=open('poem.txt')
for line in file:
text=text+line
file.close()#d打开用完后记得关掉
#print(text)
"""
在text里找所有的to单词
"""
result1=re.findall(' to ',text)#前后要有空格
print(result1)
"""
在text里找以a开头的三个字母
"""
result2=re.findall('a..',text)
result3=re.findall('a[a-z][a-z]',text)
result4=re.findall(' a[a-z][a-z] ',text)#单词,结果两端有空格
result5=re.findall(' (a[a-z][a-z]) ',text)#单词,结果两端无空格,()表示只需要显示括号中间的部分。
result6=set(result5)#去掉重复的部分
result7=re.findall(' ([Aa][a-z][a-z]) ',text)#第一个单词可以是A也可以是a
result8=re.findall(' *([Aa][a-z][a-z]) ',text)#前面可以没空格,也可以有一个或几个空格
result9=re.findall(' (a[a-z][a-z])|(A[a-z][a-z]) ',text)#如果左边或者右边没匹配到的话,就会出现''
final_result=set()
for pair in result9:
if pair[0] not in final_result:
final_result.add(pair[0])
if pair[1] not in final_result:
final_result.add(pair[1])
print(final_result)#结果中有空格
final_result.remove(' ')
print(final_result)#把空去掉
"""
在text里找所有数字
"""
result10=re.findall('\d',text)
result11=re.findall('\d+',text)#至少有一个数字
result12=re.findall('\d{2}',text)#匹配到两个数字
result13=re.findall('\d{2,3}',text)#匹配到两个或三个,将长的数字作为结果
result14=re.findall('\w',text)#匹配到一个字母
result15=re.findall('[A-Za-z]',text)#匹配到一个字母