注意:该作者博客已迁移至https://buxianshan.xyz
使用Python-docx库可以很方便的处理docx文件(官方文档)
但是有些隐含的信息Python-docx库好像无法读取,比如docx文档里的批注
下面介绍一种用python获取docx文档批注的方法
首先区分doc文件和docx文件
以前Office产品中Word用.doc文件格式,这种二进制格式很难与其他软件兼容 。docx是Microsoft Office2007之后版本使用的,用新的基于XML的压缩文件格式取代了以前默认文件格式,在传统的文件名扩展名后面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。
docx格式的文件本质上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。
比如有一个test.docx文件