![1367d413fd2556e0e98475d8dc43080c.png](https://i-blog.csdnimg.cn/blog_migrate/e13d327341ce27f76be996996bf0dc56.png)
python-docx模块虽然强大,但却不能处理后缀为".doc"的word文件。如果强制读取doc文件,将会报如下错误。
![f83d8a18bfd4852d0e2bc0186501f89c.png](https://i-blog.csdnimg.cn/blog_migrate/145b4fafe7be49d22d38e3aac4d7ad75.png)
import docx #导入docx库
doc = docx.Document("data/公司001合同.doc") #打开word文件
for para in doc.paragraphs: #读取word中的每个段落
print(para.text)
>>>
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-3-4a254209689d> in <module>
1 import docx #导入docx库
----> 2 doc = docx.Document("data/公司001合同.doc") #打开word文件