关于正则表达式的总结:正则表达式学习笔记--python处理
毕业论文中有一页需要列出本文中所有的缩略语,并解释其全称。通读全文把这些缩略语提取出来是十分浪费时间的,可以用正则表达式快速提取。
一.分解执行步骤
- 将毕业论文的内容复制到剪切板(Ctrl+C)
- 用python的pyperclip模块中的paste()方法获取剪切板的内容,并转化为字符串
- 定义缩略词的正则表达式:一个以上的大写字母
- 用python的re模块构建一个正则表达式,并用findall函数找出所有的缩略词
- 定义一个集合存放缩略词
- 将集合转化为列表,并按照首字母升序排列
二.上代码
import re #处理正则表达式
import pyperclip #处理剪切板内容
#定义存放缩略词的集合
matches=set()
#定义正则表达式
Reg = re.compile(r'[A-Z][A-Z]+')
#将剪切板的内容处理为字符串
text = str(pyperclip.paste())
#查找缩略词
for word in Reg.findall(text):
matches.add(word)
#将缩略词按照首字母升序排列
matches=list(matches)
matches.sort(key=lambda i:i[0])
print(matches)