docx2python
将docx页眉、页脚、文本、脚注、尾注、属性和图像提取到python对象。
该代码是python-docx2txt(版权所有(c)2015 ankush shah)的扩展/收缩。原来的代码基本上已经不见了,但有些骨头可能还在这里。
共享功能:从docx文件中提取文本
从docx文件中提取图像
无依赖项(docx2python需要pytest进行测试)
添加:提取脚注和尾注
使用缩进将项目符号和编号列表转换为ascii
保留原始文件的某些结构(更多内容见下文)
提取文档属性(创建者、上次修改者等)
在文本中插入图像占位符('----image1.jpg----')
在文本中插入纯文本脚注和尾注引用('----footnote1----')
(可选)将字体大小、字体颜色、粗体、斜体和下划线保留为HTML
为开发人员提供完整的测试覆盖率和文档
减法:没有命令行界面
只适用于较新版本的python
安装pip install docx2python
使用fromdocx2pythonimportdocx2python# extract docx contentdocx2python('path/to/file.docx')# extract docx content, write images to image_directorydocx2python('path/to/file.docx','path/to/image_directory')# extract docx content with basic font styles converted to htmldocx2python('path/to/file.docx',h