doc文件转换为docx文件

doc文件转换为docx文件


最近需要批处理word文档,处理过程中有部分文件是doc格式,所以需要写代码来将doc格式文件转换为docx格式文件。

doc文件和docx文件的区别

这部分参考了这个知乎链接: doc文件和docx文件的区别.的介绍,我自己暂时用到理解就是doc文件格式是以前word版本才使用的文件格式。
前提:
安装两个工具包,安装命令:
pip install python-docx
python -m pip install pypiwin32

代码实现

def doc_to_docx(file_dir):
    docfiles = []
    for root, dirs, files in os.walk(file_dir):
        for file in files:
            if os.path.splitext(file)[1] == '.doc':
                docfiles.append(os.path.join(root, file))
        word = wc.Dispatch("Word.Application")  # 打开word应用程序
        for docfile in docfiles:
            doc = word.Documents.Open(docfile)  # 打开word文件
            doc.SaveAs('{}x'.format(docfile), 12)  # 另存为后缀为".docx"的文件,其中参数12指docx文件
            doc.Close()  # 关闭原来word文件
            os.remove(docfile)
        word.Quit()
        print("完成!")

首先要导入win32的API包

from win32com import client as wc

接着,去到word文件夹里面去找到对应的doc格式的文件,其中os.path.splitext()方法切割文件名方便匹配对应格式文件

docfiles = []
    for root, dirs, files in os.walk(file_dir):
        for file in files:
            if os.path.splitext(file)[1] == '.doc':  #切分文件名,匹配相应格式的文件
                docfiles.append(os.path.join(root, file))

解释一下,for root, dirs, files in os.walk(file_dir):
三个变量分别是什么:

变量名含义
root表示正在遍历的文件夹的名字
dirs记录正在遍历的文件夹下的子文件夹集合
files记录正在遍历的文件夹中的文件集合

然后,使用win32API接口打开word应用程序,开始文件格式的转换,这里记录一下document.savaAs2的转换方法的后缀格式参数有哪些,参考官方链接链接: saveAS方法参数.

这里特别注意 doc.SaveAs(filename, 16)方法里面,必须第一个参数重新给定的文件名的格式后缀必须和后面数字参数给定的格式匹配,否则会报错。而且filename是指包含了源路径的文件路径名。

名稱描述
wdFormatDocument0Microsoft Office Word 97-2003年二進位檔案格式。
wdFormatDOSText4Microsoft DOS 文字格式。
wdFormatDOSTextLineBreaks5保留分行符號的 Microsoft DOS 文字。
wdFormatEncodedText7編碼文字格式。
wdFormatFilteredHTML10篩選的 HTML 格式。
wdFormatFlatXML19儲存為單一的 XML 檔案開啟 XML 檔案格式。
。。。。。。。。。
        word = wc.Dispatch("Word.Application")  # 打开word应用程序
        for docfile in docfiles:
            doc = word.Documents.Open(docfile)  # 打开word文件
            doc.SaveAs2('{}x'.format(docfile), 12)  # 另存为后缀为".docx"的文件,其中参数12指docx文件
            doc.Close()  # 关闭原来word文件
            os.remove(docfile)
        word.Quit()
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值