之前尝试采用win32com读取,似乎win32com需要依赖word应用,最理想的状态是不用依赖,在没有word安装的情况下就能运行。
这次采用的是python-docx包,下面的demo演示读取word的内容并打印出来
import docx
docName = "c:\\test.docx"
fullText = []
doc = docx.Document(docName)
paras = doc.paragraphs
for p in paras:
fullText.append(p.text)
text = ''.join(fullText)
print text