docx2txt是基于python的从docx文件中提取文本和图片的库。
代码是从python-docx中获取的。它也可以从页眉,页脚和超链接中提取文本。它现在也可以提取图像。
安装
pip install docx2txt
运行
命令行运行
# extract text docx2txt file.docx # extract text and images docx2txt -i /tmp/img_dir file.docx
在python中调用
# extract text docx2txt file.docx # extract text and images docx2txt -i /tmp/img_dir file.docx