Python自动化办公 - 对Word的操作（Python-docx的基本使用）

牧文山

已于 2022-08-15 21:05:08 修改

阅读量9.6k

点赞数 21

分类专栏： Python自动化办公文章标签： python docx 自动化办公

于 2020-09-01 22:07:05 首次发布

本文链接：https://blog.csdn.net/weixin_42750611/article/details/108351309

版权

本文介绍了如何使用Python-docx模块进行Word文档操作，包括读取文档内容、添加文字、图片、表格，调整样式如标题、段落对齐、行距等，实现自动化办公。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 安装模块

Windows用户打开命令行输入：pip install python-docx

Mac用户打开终端/Terminal输入：pip3 install python-docx

导入模块：import docx

如果无法安装，可以转换为国内清华镜像源，Windows系统操作如下：

在cmd模式下输入

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-docx

2 读取Word文档内容

2.1 文档结构

在这里插入图片描述

注意：一个run对象是相同样式文本的延续，如颜色、字体、粗细、斜体不同，文字加粗和后面没有加粗操作的，属于不同的文字块。

2.2 获取段落和文字块

1）获取段落paragraph

① python-docx提取文字

doc.paragraphs -> 得到一个列表，包含每个段落实例

len(doc.paragraphs)-> 得到段落的个数

paragraph.text -> 得到该段落的文字内容

import docx
from docx import Document
# 绝对路径写法，为方便阅读，以下都采用相对路径。
# doc = Document(r"C:\Users\Administrator\Desktop\这是一个文档.docx")
doc = Document("这是一个文档.docx")
print("段落数:"+str(len(doc.paragraphs)))
print(len(doc.paragraphs))

#输出第一段的内容，索引从0开始
para = doc.paragraphs[0]
print("第一段的内容是",para.text,sep=':')
print("----------------------------------------------------------------")

#输出每一段的内容
for para in doc.paragraphs:
 	print(para.text)
print("----------------------------------------------------------------")

#输出段落编号及段落内容
for i in range(len(doc.paragraphs)):
 print("第"+str(i)+"段的内容是："+doc.paragraphs[i].text)

2）获取文字块Run

paragraph.runs -> 得到一个列表，包含每个文字块

run.text -> 得到该文字块的文字内容

import docx
from docx import Document

doc = Document("这是一个文档.docx")

#输出第一段第一个文字块的内容，索引从0开始
para1 = doc.paragraphs[0]
runs = para1.runs[0]
print("第一段第一个文字块的内容是",runs.text,sep=':')
print("----------------------------------------------------------------")
for i in range(len(doc.paragraphs)):
    paragraph = doc.paragraphs[i]
    runs = paragraph.runs
    for run in paragraph.runs:
        print("第"+str(i+1)+"个文字块的内容是："+run.text)

2.3 获取整个文本

读取完整的Word文本内容。这里，自定义一个函数将全部的paragraph段落内容存起来，每个paragraph段落之间用换行符\n隔开即可。

import docx

def getText(fileName):
    doc = docx.Document(fileName)
    TextList = []
    for paragraph in doc.paragraphs:
        TextList.append(paragraph.text)
    
    return '\n'.join(TextList)
    
fileName = r'example3.docx'
print(getText(fileName))

3 向文档中写入内容

3.1 添加文字

1）添加标题

doc.add_heading(“标题名称”,level=标题等级)，level=可以省略

整数 0 表示标题是 Title 样式，这用于文档的顶部。整数 1 到 45是不同的标题层次，是主要的标题， 45是最低层的子标题

import docx
doc=docx.Document()

doc.add_heading('标题0',0)
doc.add_heading('标题1',1)
doc.add_heading<

最低0.47元/天解锁文章