Python读取.DOC & .WPS & .DOCX格式文件,注意!!!是能读取.DOC不只是DOCX!!!!!能在 Ubuntu 执行!!!

本文介绍了如何在Ubuntu18.04.1LTS系统中安装Tika库,演示了如何使用`parser.from_file`函数加载并读取4344315995.doc文件,首次执行时由于服务加载可能会稍有延迟。
摘要由CSDN通过智能技术生成
# 1、安装tika包
pip install tika


# 2、加载读取文件

from tika import parser

def read_doc(file_path):
    parsed = parser.from_file(file_path)
    text = parsed['content']
    return text

# 读取4344315995.doc
file_path = '4344315995.doc'
print(read_doc(file_path))

PS:

        1、系统版本: Ubuntu 18.04.1 LTS (GNU/Linux 4.15.0-193-generic x86_64)

        2、初次执行:会自适应加载一些服务,耗时会稍微长一些

  • 13
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值