真；顺序读取docx文本

套头衫01

于 2024-08-08 14:18:43 发布

阅读量278

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/m0_51944012/article/details/141025820

版权

from docx.document import Document as _Document

from docx.oxml.text.paragraph import CT_P

from docx.oxml.table import CT_Tbl

from docx.table import _Cell, Table, _Row

from docx.text.paragraph import Paragraph

import docx

path = 'LL-A190311.docx'

doc = docx.Document(path)

def iter_block_items(parent):

if isinstance(parent, _Document):

parent_elm = parent.element.body

elif isinstance(parent, _Cell):

parent_elm = parent._tc

elif isinstance(parent, _Row):

parent_elm = parent._tr

else:

raise ValueError("something's not right")

for child in parent_elm.iterchildren():

if isinstance(child, CT_P):

yield Paragraph(child, parent)

elif isinstance(child, CT_Tbl):

yield Table(child, parent)

ls = []

def get_cell_content(cells):

"""

获取每一行中每一列的内容

"""

row_content = []

for cell in cells: # 遍历每一行的每一个单元格

# cell数量为表格最大列数+1，故对于较少列的行存在重复值，需去重

if cell.text and cell.text not in row_content:

row_content.append(cell.text)

return row_content

for block in iter_block_items(doc):

# read Paragraph

if isinstance(block, Paragraph):

# print(block.text)

ls.append(block.text)

# read table

elif isinstance(block, Table):

for x in block.rows:

# print(get_cell_content(x.cells))

ls.append(get_cell_content(x.cells))

# print(block.style.name)

print(ls)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

套头衫01

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python_docx读取word的内容

编程知识分享，主打前端

04-10

4万+

python读取word的内容docx安装读取word读取文本内容paragraphs读取word中的表格tables行遍历行列循环列遍历列行循环按位置下标获取某个元素 docx安装安装python-docx # pip install python-docx 读取word 测试文件（docx文件）读取文本内容 paragraphs 获取内容的样式和样式 style 样式 text 文本本内容获取word的内容（非表格） from docx import Document # Docu

java读取docx_Java读取doc、docx、xls、xlsx、ppt、pptx、pdf文件内容

weixin_30844301的博客

02-21

719

读取文件信息所需依赖org.apache.poipoi4.1.2org.apache.poipoi-scratchpad4.1.2org.apache.poipoi-ooxml4.1.2org.apache.pdfboxpdfbox2.0.12org.apache.pdfboxfontbox2.0.12读取doc文件内容public static String readWord(String na...

参与评论您还未登录，请先登录后发表或查看评论

android 读word文档 doc docx xls xlsx

08-21

安卓解析word文档 webView显示花了三天写出来的翻遍了网上所有的资料可解析 doc docx xls xlsx格式完整代码里面带poi的包所以有点大

顺序遍历docx文档

龍博客

12-27

1330

顺序遍历doc文档的核心代码如下：from docx import Document from docx.document import Document as _Document from docx.oxml.text.paragraph import CT_P from docx.oxml.table import CT_Tbl from docx.table import _Cell, Tab

Python 全栈系列104 -使用python读取word

yukai08008的博客

06-09

468

说明使用python将word内容结构化。内容

Python 遍历读取Word文档全部内容

Hushi1706IT的博客

03-19

4414

本文以遍历如下图的word文件作为例子。

python同时读取表格和段落,如何使用Python迭代读取word中的段落、表格和图片

weixin_33501348的博客

03-26

641

到目前为止，我已经找到了一种在word中按顺序和迭代方式阅读段落和表格的方法，但我仍然坚持如何按顺序阅读图片。我想请你帮我在原代码的基础上实现怎样的顺序迭代单词图片？这是我当前的代码from docx.document import Document as _Documentfrom docx.oxml.text.paragraph import CT_Pfrom docx.oxml.table ...

python中使用docx库操作word文档记录（1）- 读取文本和表格

yhjbox的博客

12-03

1412

python中使用docx库操作word文档记录（1）- 读取文本和表格本文记录docx库读取word文本和表格的方法一、使用docx模块 Python可以利用python-docx模块处理word文档，处理方式是面向对象的。也就是说python-docx模块会把word文档，文档中的段落、文本、字体等都看做对象，对对象进行处理就是对word文档的内容处理。安装方法为：pip install python-docx 二、相关概念先了解python-docx模块的几个概念。 1，Document对象，

Java Properties 解决中文乱码和顺序读写.docx

06-26

配置文件通常以`.properties`为扩展名，采用文本格式，每行包含一个键值对，键和值之间以等号(`=`)分隔，注释则以井号(`#`)开头。 Properties 类继承自 Hashtable，因此它拥有字典类的一些基本功能，如添加、删除、...

matlab读取excel.docx

11-12

为了解决这个问题，有一个名为`officedoc`的第三方函数包，它能按原始顺序读取Excel文件中的所有单元格数据，包括不同类型的单元格（数值、文本等），返回一个cell数组，每个元素对应Excel中的一个单元格。...

python实现提取word内容并写入excle.rar

04-13

实现将word内容按一定规律和方式写入excel 可用于提取word关键信息，在excel直观显示

python-docx 识别表格在docx文档中的所在位置

panjielove的博客

03-17

7322

由于工作需要提取一个word文档中的表格，及其所在的章节，普通的Document.paragraphs 和Document.tables无法满足需求。所以综合GitHub作者的代码及我自己的需求代码如下： from docx.document import Document from docx.oxml.table import CT_Tbl from docx.oxml.text.parag...

freemarker通过word生成doc模板（xml模板），list的遍历

qq_38644907的博客

07-07

3679

1、下载freemarker的jar包导入到项目中； 2、通过word文档生成doc模板（xml模板）：新建word文档，编辑内容（变量使用${propertyName}的方式），然后另存为xml文件，xml模板便完成。另存为xml模板。如果要使用遍历list的话，需要使用到标签： <#list listName as entityName> 存放遍历的内容，遍历的变量值是：${entityName.name} </#list> 标签存放的位...

DOCX文档结构分析

CHANCE_wqp的博客

05-28

3392

docx文档本质上是一个压缩包，可直接修改文档.docx后缀为.zip后缀，再解压zip包，可得如下docx文档详细结构（包含utf-8或utf-16编码的XML文件及其他图片、视频等媒体文件，该结构根据所规定）。每个docx压缩包都含有该文件，位于压缩包根目录下，引入了压缩包中所有使用到的部件的内容类型，例如主文档部件的内容类型，如下：【注意：后续如果要添加新部件，就需要在[Content_Types].xml中补充新部件的内容类型，才会生效】

Office文件结构解析

qq_42814021的博客

11-02

6380

文章目录Office文件Office2007之前的版本Office2007及之后的版本OOXML = OPC + \*MLOPC*MLdocx文件的解析流程 Office文件之前在项目开发过程中，进行文件类型判断时，发现doc和docx文件的结构是不同的，很是好奇，特来深究一番。 doc和docx、xls和xlsx、ppt和pptx的不同，其原理都是一样的。 doc是Office 2007之前的版本；docx是Office 2007之后的版本。下面详细介绍一下：参考文档： Office恶意文件解析与混淆

python在窗体显示表格_Python docx标识窗体在docx文档中的位置,pythondocx,识别,表格,所在位置...

weixin_39706491的博客

03-02

309

由于工作需要提取一个word文档中的表格，及其所在的章节，普通的Document.paragraphs 和Document.tables无法满足需求。所以综合GitHub作者的代码及我自己的需求代码如下：from docx.document import Documentfrom docx.oxml.table import CT_Tblfrom docx.oxml.text.paragraph ...

python-docx 遍历 Word 文档