Python Word 文字处理
Python-docx 是一款针对于word文档处理的一个模块,它可以创建word文档,遍历word文档,以及修改word文档。
主要应用场景是文档生成,文档转换,文档分析等等。
举例一、招聘网站自动生成Word文档简历,使用 python-docx 将用户输入的简历内容,自动拼装成 word 简历,并下载。
举例二、Word 文档差异对比,例如合同修改后,产生两个版本的 word 文档,我们不知道那一行,或者那一个字做了修改,人工核对费时费力,我们就可以写一个程序,逐行逐字核对,并将差异文字显示出来。
安装
pip3 install python-docx
from docx import Document
# 打开已存在文档
document = Document('test.docx')
# 读取标题、段落、列表内容
paras = [ paragraph.text for paragraph in document.paragraphs]
for p in paras:
print(p)
# 读取表格内容
tables = [table for table in document.tables]
for t in tables:
for row in t.rows:
for cell in row.cells:
print(cell.text, end=' ')
print()
创建空白文档
from docx import Document
document = Document()
document.save('new.docx')
添加标题
from docx import Document
# 创建文档对象
document = Document()
# 标题
document.add_heading('标题一', 0)
document.add_heading('标题二', 1)
document.add_heading('标题三', 2)
document.add_heading('标题四', 3)
document.add_heading('标题五', 4)
document.add_heading('标题六', 5)
document.add_heading