最近有同事找我帮忙,需要分离一下多个Word中的表格然后把所有表格整合到一个WORD里。
1. python-docx介绍
作为“Python大法”的推崇者,当然是选择Python了,于是从网上查了一下,比较傻瓜的方式是使用python-docx库进行操作,那么话不多说,先在conda中来一个
pip install python-docx
简单的讲一讲,python-docx主要可以用于对Word进行读取、解析然后生成Word文件。感兴趣的小伙伴可以去看一看官方文档进行高阶功能的学习。
列举一些简单的用法
import docx
# 读取Word
doc = docx.Document('test.docx')
# 查看Word中的段落(文字内容)
for para in doc.paragraphs:
# 打印文本内容
print(para.text)
# 查看Word中的表格
for table in doc.tables:
# 遍历表格的所有行
for row in table.rows:
# 打印表格中一行的内容
row_str = '\t'.join([cell.text for cell in row.cells])
print(row_str)
# 创建新的Word
new_doc = docx.Document()
# 添加新段落
new_doc.add_paragraph('XXX')
# 添加新表格
new_doc.add_table(rows = XX, cols = XX)
# 保存Word
new_doc.save('out.docx')