doc文件转换为docx文件
最近需要批处理word文档,处理过程中有部分文件是doc格式,所以需要写代码来将doc格式文件转换为docx格式文件。
doc文件和docx文件的区别
这部分参考了这个知乎链接: doc文件和docx文件的区别.的介绍,我自己暂时用到理解就是doc文件格式是以前word版本才使用的文件格式。
前提:
安装两个工具包,安装命令:
pip install python-docx
python -m pip install pypiwin32
代码实现
def doc_to_docx(file_dir):
docfiles = []
for root, dirs, files in os.walk(file_dir):
for file in files:
if os.path.splitext(file)[1] == '.doc':
docfiles.append(os.path.join(root, file))
word = wc.Dispatch("Word.Application") # 打开word应用程序
for docfile in docfiles:
doc = word.Documents.Open(docfile) # 打开word文件
doc.SaveAs('{}x'.format(docfile), 12) # 另存为后缀为".docx"的文件,其中参数12指docx文件
doc.Close() # 关闭原来word文件
os.remove(docfile)
word.Quit()
print("完成!")
首先要导入win32的API包
from win32com import client as wc
接着,去到word文件夹里面去找到对应的doc格式的文件,其中os.path.splitext()方法切割文件名方便匹配对应格式文件
docfiles = []
for root, dirs, files in os.walk(file_dir):
for file in files:
if os.path.splitext(file)[1] == '.doc': #切分文件名,匹配相应格式的文件
docfiles.append(os.path.join(root, file))
解释一下,for root, dirs, files in os.walk(file_dir):
三个变量分别是什么:
变量名 | 含义 |
---|---|
root | 表示正在遍历的文件夹的名字 |
dirs | 记录正在遍历的文件夹下的子文件夹集合 |
files | 记录正在遍历的文件夹中的文件集合 |
然后,使用win32API接口打开word应用程序,开始文件格式的转换,这里记录一下document.savaAs2的转换方法的后缀格式参数有哪些,参考官方链接链接: saveAS方法参数.
这里特别注意 doc.SaveAs(filename, 16)方法里面,必须第一个参数重新给定的文件名的格式后缀必须和后面数字参数给定的格式匹配,否则会报错。而且filename是指包含了源路径的文件路径名。
名稱 | 值 | 描述 |
---|---|---|
wdFormatDocument | 0 | Microsoft Office Word 97-2003年二進位檔案格式。 |
wdFormatDOSText | 4 | Microsoft DOS 文字格式。 |
wdFormatDOSTextLineBreaks | 5 | 保留分行符號的 Microsoft DOS 文字。 |
wdFormatEncodedText | 7 | 編碼文字格式。 |
wdFormatFilteredHTML | 10 | 篩選的 HTML 格式。 |
wdFormatFlatXML | 19 | 儲存為單一的 XML 檔案開啟 XML 檔案格式。 |
。。。 | 。。。 | 。。。 |
word = wc.Dispatch("Word.Application") # 打开word应用程序
for docfile in docfiles:
doc = word.Documents.Open(docfile) # 打开word文件
doc.SaveAs2('{}x'.format(docfile), 12) # 另存为后缀为".docx"的文件,其中参数12指docx文件
doc.Close() # 关闭原来word文件
os.remove(docfile)
word.Quit()