首先,在路径下新建一个docx文档,这里建立了一个a.docx
文档内容由自己决定,但要有连续重复字
比如:
方法1:
from docx import Document
doc=Document('a.docx')
contents=''.join((p.text for p in doc.paragraphs))
words=[]
for index,ch in enumerate(contents[:-2]):
if ch==contents[index+1] or ch==contents[index+2]:
word=contents[index:index+3]
if word not in words:
words.append(word)
print(word)
方法2:
import re
from docx import Document
doc=Document('a.docx')
text=''.join((p.text for p in doc.paragraphs))
result=re.findall(r'(([\u4e00-\u9fa5、!:;,]).?\2)',text)
for word in result:
print(word[0])
运行后:
如果没有安装docx模块
打开命令行
输入:pip install python-docx
下载即可