python读取doc文件_Python用python-docx读写word文档

最新推荐文章于 2024-07-20 18:55:02 发布

weixin_39779467

最新推荐文章于 2024-07-20 18:55:02 发布

阅读量1k

点赞数

文章标签： python读取doc文件

备注：

doc是微软的专有的文件格式，docx是Microsoft Office2007之后版本使用，其基于Office Open XML标准的压缩文件格式，比

doc文件所占用空间更小。docx格式的文件本质上是一个ZIP文件，所以其实也可以把.docx文件直接改成.zip，解压后，里面的

word/document.xml包含了Word文档的大部分内容，图片文件则保存在word/media里面。

python-docx不支持.doc文件，间接解决方法是在代码里面先把.doc转为.docx。

一、安装包

pip3 install python-docx

二、创建word文档

下面是在官文示例基础上对个别地方稍微修改，并加上函数的使用说明

from docx importDocumentfrom docx.shared importInches

document=Document()#添加标题，并设置级别，范围：0 至 9，默认为1

document.add_heading('Document Title', 0)#添加段落，文本可以包含制表符（\t）、换行符（\n）或回车符（\r）等

p = document.add_paragraph('A plain paragraph having some')#在段落后面追加文本，并可设置样式

p.add_run('bold').bold =True

p.add_run('and some')

p.add_run('italic.').italic =True

document.add_heading('Heading, level 1', level=1)

document.add_paragraph('Intense quote', style='Intense Quote')#添加项目列表（前面一个小圆点）

document.add_paragraph('first item in unordered list', style='List Bullet')

document.add_paragraph('second item in unordered list', style='List Bullet')#添加项目列表（前面数字）

document.add_paragraph('first item in ordered list', style='List Number')

document.add_paragraph('second item in ordered list', style='List Number')#添加图片

document.add_picture('monty-truth.png', width=Inches(1.25))

records=(

(3, '101', 'Spam'),

(7, '422', 'Eggs'),

(4, '631', 'Spam, spam, eggs, and spam')

)#添加表格：一行三列#表格样式参数可选：#Normal Table#Table Grid#Light Shading、 Light Shading Accent 1 至 Light Shading Accent 6#Light List、Light List Accent 1 至 Light List Accent 6#Light Grid、Light Grid Accent 1 至 Light Grid Accent 6#太多了其它省略...

table = document.add_table(rows=1, cols=3, style='Light Shading Accent 2')#获取第一行的单元格列表

hdr_cells =table.rows[0].cells#下面三行设置上面第一行的三个单元格的文本值

hdr_cells[0].text = 'Qty'hdr_cells[1].text = 'Id'hdr_cells[2].text = 'Desc'

for qty, id, desc inrecords:#表格添加行，并返回行所在的单元格列表

row_cells =table.add_row().cells

row_cells[0].text=str(qty)

row_cells[1].text =id

row_cells[2].text =desc

document.add_page_break()#保存.docx文档

document.save('demo.docx')

创建的demo.docx内容如下：

三、读取word文档

from docx importDocument

doc= Document('demo.docx')#每一段的内容

for para indoc.paragraphs:print(para.text)#每一段的编号、内容

for i inrange(len(doc.paragraphs)):print(str(i), doc.paragraphs[i].text)#表格

tbs =doc.tablesfor tb intbs:#行

for row intb.rows:#列

for cell inrow.cells:print(cell.text)#也可以用下面方法

'''text = ''

for p in cell.paragraphs:

text += p.text

print(text)'''

运行结果：

Document Title

A plain paragraph having some bold and some italic.

Heading, level 1

Intense quote

first item in unordered list

second item in unordered list

first item in ordered list

second item in ordered list

0 Document Title

1 A plain paragraph having some bold and some italic.

2 Heading, level 1

3 Intense quote

4 first item in unordered list

5 second item in unordered list

6 first item in ordered list

7 second item in ordered list

8

9

Qty

Id

Desc

3

101

Spam

7

422

Eggs

4

631

Spam, spam, eggs, and spam

[Finished in 0.2s]

weixin_39779467

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python读取doc文件_Python用python-docx读写word文档

备注：doc是微软的专有的文件格式，docx是Microsoft Office2007之后版本使用，其基于Office Open XML标准的压缩文件格式，比doc文件所占用空间更小。docx格式的文件本质上是一个ZIP文件，所以其实也可以把.docx文件直接改成.zip，解压后，里面的word/document.xml包含了Word文档的大部分内容，图片文件则保存在word/media里面。py...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。