使用正则表达式查找Word文件中AABB和ABAC形式的成语
1.实验目的
(1)熟练安装Python扩展库python-docx。
(2)了解Word文件的内容组织方式。
(3)熟悉Python标准库re中常用函数的用法。
(4)熟悉正则表达式子模式的工作原理。
(5)了解常用汉字Unicode编码范围。
2.实验内容
安装Python扩展库python-docx,然后读取一个Word文章中所有段落的文本,查找并输出其中所有AABB形式的词语,例如踏踏实实、密密麻麻、简简单单、时时刻刻。
案例代码
import docx
import re
f = docx.Document("test.docx")
for i in range(len(f.paragraphs)):
pat1 = r'(((.).\3.)|((.)\5(.)\6))'
if re.findall(pat1, f.paragraphs[i].text):
l = re.findall(pat1, f.paragraphs[i].text)
print(*[j for j in [i[0] for i in l] if(re.fullmatch(r'^[\u4e00-\u9fa5]{0,}$', j))])