首先下载第三方库python-docx: pip install python-docx(在py文件里面导入的时候是import docx)
简单的说,docx里面的每一个段落都是一个paragraph对象,段落中文本如果有不同的样式(加粗,斜体)就会有不同的run对象,而且paragraph和run对象都有一个text属性,表示的是他包含的文本
import docx
def getText(filename):
doc = docx.Document(filename)
fullText = []
for i in doc.paragraphs:#迭代docx文档里面的每一个段落
fullText.append(i.text)#保存每一个段落的文本
return '\n'.join(fullText)
def main():
print getText('reviews.docx')#reviews.docx是我自己创建的一个文档,注意要和你的py文件一个目录下
if __name__=="__main__":
main()
reviews.docx文件下载:https://pan.baidu.com/s/1pMEXSLl