【PYTHON,WORD】1.利用python-docx 读取word文件

0.安装python-docx模块

windows:pip install python-docx
mac:pip3 install python-docx

1.word文档结构

Document: 文档
Paragraph:段落
Run:文字块

在这里插入图片描述
共有三段
2.提取文字
2.1提取段落实例,段数:

.paragraphs  获取一个列表,包含每个段落的实例
from docx import Document

doc = Document("0.docx")
print(doc.paragraphs)
print(len(doc.paragraphs))

结果:

[<docx.text.paragraph.Paragraph object at 0x000001F88E2F2E80>, <docx.text.paragraph.Paragraph object at 0x000001F88E2F2C88>, <docx.text.paragraph.Paragraph object at 0x000001F88E2F2EF0>]
3

结果说明有三段
2.2提取段落内容

from docx import Document

doc = Document("0.docx")
for paragraph in doc.paragraphs:
	print(paragraph.text)
以上便是excel与python结合的第二部分内容,后续将会持续更新excel,ppt,爬虫,人工智能等相关内容,敬请关注

2.3获取文字块run

excel与python结合的第二部分内容,后续将会持续更新excelppt爬虫,人工智能
一个格式为一个文字块run 上述句子有7个文字块run

from docx import Document

doc = Document("0.docx")
paragraph = doc.paragraphs[1]
runs = paragraph.runs
print(runs)
[<docx.text.run.Run object at 0x000001F88E2F2E10>, <docx.text.run.Run object at 0x000001F88E2F2C88>, <docx.text.run.Run object at 0x000001F88E2F2E80>, <docx.text.run.Run object at 0x000001F88E2F2DD8>, <docx.text.run.Run object at 0x000001F88E2F2EB8>, <docx.text.run.Run object at 0x000001F88E2F2F28>, <docx.text.run.Run object at 0x000001F88E2F2F60>]

paragraph.runs 获取一个列表,得到每个文字块的实例

2.4提取文字块的内容

from docx import Document

doc = Document("0.docx")
paragraph = doc.paragraphs[1]
runs = paragraph.runs
print(runs)
for run in runs:
	print(run.text)
excel与python结合的第二部分内容,
后续将会持续更新excel
,
ppt
,
爬虫
,人工智能

以上便是
word与python结合的第一部分内容,
后续将会持续更新excel,ppt,爬虫,人工智能
等相关内容,敬请关注

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值