前言
前面的文章中,我们有介绍过Python-docx
这个第三方包,基于它开发的
docx-tpl
对于根据模板批量生成文件有相当方便的地方,甚至我们还利用它开发了一个简单的模拟邮件合并的小程序。 然而,不得不让人遗憾的是,目前在
Python
的第三方包中,我还没有发现能直接对
doc
文档进行读取的包,但由于历史原因,在工作中,曾产生过大量的
doc
文档,且其中有一些还存储着一些表格,如何将这些
doc
文档中的表格提取出来,就是一个非常麻烦的事,如果只是一个文档还可以手工操作,但面对几百上千的
doc
文档,根本无法用手工去一一完成。
间接读取doc
文档的思路
在查询了相当多的资料后,发现一个可靠的办法是将
doc
文件转换为
docx
文档,然后用
Python-docx
进行读取,通常我们会用
office
软件打开
doc
文件再另存为
docx
文件,其于这个思路也有一些批量转换工具,不过,如果安装了
libreoffice
这个软件的话,可以直接在命令行调用它来执行转换命令。 下面我们来