我找到了解决这个问题的方法。在
我成功地将.doc文件转换为.txt文件,所有特殊字符和编码都转换为.txt格式。代码如下所示。我想您可以(如果需要的话)读取新创建的文本文件,然后将其存储在python程序的变量中。从那里你可以做任何你想做的事情。在import win32com.client
import os
import re
rootdir ='C:\Users\IdaLim\Desktop\docs'
try:
app = win32com.client.Dispatch('Word.Application')
app.Visible = True
for subdir, dirs, files in os.walk(rootdir):
for file in files:
fullpath = os.path.join(*[subdir, file])
if file.endswith(".doc"):
out_name = file.replace("doc", r"txt")
in_file = os.path.abspath(rootdir + "\\" + file)
out_file = os.path.abspath(rootdir + "\\" + out_name)
doc = app.Documents.Open(in_file)
content = doc.Content.Text
print 'Exporting', out_file
doc.SaveAs(out_file, FileFormat=7)
doc.Close()
except Exception, e:
print e
finally:
app.Quit()