提取文件内容
import docx
def merge_without_format(docx_files: list):
'''
只获取内容进行合并
'''
# 遍历每个文件
for docx_file in sorted(docx_files):
another_doc = Document(docx_file)
# 获取每个文件的所有“段落”
paras = another_doc.paragraphs
# 获取所有段落的文字内容
# paras_content = [para.text for para in paras]
for para in paras:
# 为新的word文件创建一个新段落
newpar = doc.add_paragraph('')
# 将提取的内容写入新的文本段落中
newpar.add_run(para.text)
# 所有文件合并完成后在指定路径进行保存
doc.save(Path(word_files_path, 'new.docx'))
# 调用函数
merge_without_format(files)
我们 Word 和 Txt 合并之后保存到新的 Word 中,会出现 Txt 里的字体字号和原有文件不统一的问题,我们可以使用 python-docx 扩展库为 Txt 文件中的文字增加格式。如果合并前 Word 文件是仿宋字体,而且有下划线和红色字体,我们将 Txt 合并之后如何进行字体、样式和颜色的统一呢?我们可以使用下面这段代码。
def add_content_mode1(content):
'''
增加内容
'''
para = doc.add_paragraph().add_run(content)
# 设置字体格式
para.font.name = '仿宋'
# 设置下划线
para.font.underline = True
# 设置颜色
para.font.color.rgb = RGBColor(255,128,128)
我们经常见到的图片格式就有.jpg、.png、.gif 等,由于这些格式应用范围广,格式没有被商业软件加密,所以 python-docx 库的 add_picture 函数就能实现把图片插入 Word 的功能。代码如下:
from docx import Document
from docx import shared
doc = Document()
# 按英寸设置宽度,添加图片
doc.add_picture('test.jpg', width=shared.Inches(1))
为了让你更好地理解如何进行 Word 和 Excel 文件的合并,我用一个利用 Excel 和 Word 批量制作邀请函的例子来给你讲解。
def generat_invitation():
'''
生成邀请函文件
'''
doc = Document(invitation)
# 取出每一段
for para in doc.paragraphs:
for key, value in replace_content.items():
if key in para.text:
# 逐个关键字进行替换
para.text = para.text.replace(key, value)
file_name = PurePath(invitation_path).with_name(replace_content['<姓名>']).with_suffix('.docx')
doc.save(file_name)
先将 Excel 中的每一行中的姓名、性别填入 Word 文件中;再将当前日期填入到 Word 文件中;最后再按照姓名另存为一个文件。