Python3.7 转码文本
Docx 转文本
安装
pip3 install python-docx
#!/usr/bin/python3.7
def doc2text():
doc = Document( filename)
for para in doc.paragraphs:
rows.append( para.text)
return "\n".join( rows)
antiword工具,Doc 转文本
官方站:http://www.winfield.demon.nl/
下载地址:http://www.winfield.demon.nl/linux/antiword-0.37.tar.gz
#下载完,解压,进入目录,执行:
wget http://www.winfield.demon.nl/linux/antiword-0.37.tar.gz
tar -zxvf antiword-0.37.tar.gz
cd antiword-0.37
make && make install
即可完成安装。
安装时,自动安装到了 /root/
目录下,只有 root
才可执行该命令,我们需要改一下路径,COPY到 /usr
中方便调用。
cp /root/bin/antiword /usr/local/bin/
mkdir /usr/share/antiword
cp -R /root/.antiword/* /usr/share/antiword/
chmod 777 /usr/local/bin/*antiword
chmod 755 /usr/share/antiword/*
以上操作以后即可在任意用户调用 antiword命令。
antiword的使用:
antiword -t 文件名.doc 文本输出(默认)
antiword -f 文件名.doc 格式化文本输出
antiword -m utf-8 文件名.doc
注意:antiword的只能提取doc文件的文本,而且部分文件提取也会失败,所以需要捕获异常,进行下一步的处理。