python读取doc文件_Ubuntu下使用python读取doc和docx文档的内容方法

最新推荐文章于 2024-03-29 13:55:39 发布

weixin_39614877

最新推荐文章于 2024-03-29 13:55:39 发布

阅读量234

点赞数 1

文章标签： python读取doc文件

这篇文章主要介绍了关于Ubuntu下使用python读取doc和docx文档的内容方法，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下

读取docx文档

使用的包是python-docx

1. 安装python-docx包

sudo pip install python-docx

2. 使用python-docx包读取数据

#encoding:utf8

import docx

doc = docx.Document('test.docx')

docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs])

#print(docText)

python-docx这个包是不能处理doc文档的，要读取doc文档内容的话需要使用antiword这个工具。

读取doc文档

1. 到网站下载antiword。

2. 下载完毕之后解压，在解压得到的文件夹中依次运行make和make install命令。

3. 使用antiword读取doc文档内容

#encoding:utf8

import subprocess

word = 'test.doc'

output = subprocess.check_output(['antiword',word])

print(output)

相关推荐：

基于python批量处理dat文件及科学计算的方法

用python处理MS Word的实例

以上就是Ubuntu下使用python读取doc和docx文档的内容方法的详细内容，更多请关注Gxl网其它相关文章！

本条技术文章来源于互联网，如果无意侵犯您的权益请点击此处反馈版权投诉

本文系统来源：php中文网

weixin_39614877

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python读取doc文件_Ubuntu下使用python读取doc和docx文档的内容方法

这篇文章主要介绍了关于Ubuntu下使用python读取doc和docx文档的内容方法，有着一定的参考价值，现在分享给大家，有需要的朋友可以参考一下读取docx文档使用的包是python-docx1. 安装python-docx包sudo pip install python-docx2. 使用python-docx包读取数据#encoding:utf8import docxdoc = docx....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。