Python3.7 Linux docx和doc文档转码文本

Python3.7 转码文本

Docx 转文本

安装

pip3 install python-docx
#!/usr/bin/python3.7
def doc2text():
	doc = Document( filename)
	for para in doc.paragraphs:
		rows.append( para.text)
	 return "\n".join( rows)

antiword工具,Doc 转文本

官方站:http://www.winfield.demon.nl/
下载地址:http://www.winfield.demon.nl/linux/antiword-0.37.tar.gz

#下载完,解压,进入目录,执行:
wget http://www.winfield.demon.nl/linux/antiword-0.37.tar.gz
tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make && make install

即可完成安装。
安装时,自动安装到了 /root/ 目录下,只有 root 才可执行该命令,我们需要改一下路径,COPY到 /usr 中方便调用。

cp /root/bin/antiword /usr/local/bin/
mkdir /usr/share/antiword
cp -R /root/.antiword/* /usr/share/antiword/
chmod 777 /usr/local/bin/*antiword
chmod 755 /usr/share/antiword/*

以上操作以后即可在任意用户调用 antiword命令。

antiword的使用:

antiword -t 文件名.doc		文本输出(默认)
antiword -f 文件名.doc       格式化文本输出
antiword -m utf-8 文件名.doc  

注意:antiword的只能提取doc文件的文本,而且部分文件提取也会失败,所以需要捕获异常,进行下一步的处理。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值