python docx模块_Python docx2python包_程序模块 - PyPI - Python中文网

docx2python是一个Python模块,用于从docx文件中提取页眉、页脚、文本、脚注、尾注、属性和图像。它扩展了python-docx2txt,并提供无依赖的文本和图像提取,支持HTML样式保留,以及完整的测试覆盖率和文档。要安装,可以使用`pip install docx2python`。
摘要由CSDN通过智能技术生成

docx2python

将docx页眉、页脚、文本、脚注、尾注、属性和图像提取到python对象。

该代码是python-docx2txt(版权所有(c)2015 ankush shah)的扩展/收缩。原来的代码基本上已经不见了,但有些骨头可能还在这里。

共享功能:从docx文件中提取文本

从docx文件中提取图像

无依赖项(docx2python需要pytest进行测试)

添加:提取脚注和尾注

使用缩进将项目符号和编号列表转换为ascii

保留原始文件的某些结构(更多内容见下文)

提取文档属性(创建者、上次修改者等)

在文本中插入图像占位符('----image1.jpg----')

在文本中插入纯文本脚注和尾注引用('----footnote1----')

(可选)将字体大小、字体颜色、粗体、斜体和下划线保留为HTML

为开发人员提供完整的测试覆盖率和文档

减法:没有命令行界面

只适用于较新版本的python

安装pip install docx2python

使用fromdocx2pythonimportdocx2python# extract docx contentdocx2python('path/to/file.docx')# extract docx content, write images to image_directorydocx2python('path/to/file.docx','path/to/image_directory')# extract docx content with basic font styles converted to htmldocx2python('path/to/file.docx',h

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值