使用Python将Word表格嵌入Excel中!

????????关注后回复 “进群” ,拉你进程序员交流群????????

作者丨林小呆

来源丨数据分析与统计学之美

今日需求

其实就是把Word中的表格转到Excel中,顺便做一个调整。这个需求在实际工作中,很多人还是经常碰到的!

如果单单是两个表格,那只要简单的复制黏贴即可,但如果上百了呢?那就得考虑自动化了。好在今天碰到的需求中的原文件格式是比较有规律的,那直接来尝试一下。

# 首先要pip install python-docx
# 如果原文件是doc格式,那就先转成docx
from docx import Document
import pandas as pd

path = "./word表格转excel.docx"
docx = Document(path)
table_s = docx.tables  # 返回一个Table对象的列表

len(table_s) --> 2 # 返回值是2,因为原文件中只有两个表格

list_ = []  # 初始化一个空列表,用来装后面的dict_

for table in table_s:  # 循环所有的表格列表
    dict_ = {}
    dict_['名称'] = table.cell(0, 1).text  # 表格的索引是从(0行,0列)开始
    dict_['身份'] = table.cell(0, 3).text
    dict_['简介'] = table.cell(1, 1).text
    for i in range(3, len(table.rows)):  # 后续的内容格式不固定,所以循环获取
        dict_[table.cell(i, 0).text] = table.cell(i, 1).text
    list_.append(dict_)

当完成上述操作后,list_就会是一个字典列表。

接下来,将列表转为DataFrame进行操作即可。

df = pd.DataFrame(list_)

# 先将前三列作为索引,然后逆透视其他列,其实这就是个一维表转二维表的过程
df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame()

# 重新设置一下行列索引的名字
df.index.names = ['名称', '身份', '简介', '物质']
df.columns = ['现状']

此时的df就跟需求结果相差不大了。


最后将DataFrame导出,稍作美化即可完成需求。

# 导出的时候一定要设置index=True不然只会保留一列Series
df.to_excel("data3.xlsx", index=True, merge_cells=True)

完整代码

# 首先要pip install python-docx
# 如果原文件是doc格式,那就先转成docx
from docx import Document
import pandas as pd

path = "./word表格转excel.docx"
docx = Document(path)
table_s = docx.tables  # 返回一个Table对象的列表

list_ = []  # 初始化一个空列表,用来装后面的dict_

for table in table_s:  # 循环所有的表格列表
    dict_ = {}
    dict_['名称'] = table.cell(0, 1).text  # 表格的索引是从(0行,0列)开始的
    dict_['身份'] = table.cell(0, 3).text
    dict_['简介'] = table.cell(1, 1).text
    for i in range(3, len(table.rows)):  # 循环获得后面的内容
        dict_[table.cell(i, 0).text] = table.cell(i, 1).text
    list_.append(dict_)

df = pd.DataFrame(list_)

# 先将前三列作为索引,然后逆透视其他列,就是个一维表转二维表的过程
df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame()

# 重新设置一下行列索引的名字
df.index.names = ['名称', '身份', '简介', '物质']
df.columns = ['现状']

# 导出的时候一定要设置index=True不然只会保留一列Series
df.to_excel("data3.xlsx", index=True, merge_cells=True)

练习数据集下载

如果大家对本文数据感兴趣,只需点击下方卡片,关注公众号「架构师大咖」后回复「数据01」后,即可获取本文完整数据????

-End-

最近有一些小伙伴,让我帮忙找一些 面试题 资料,于是我翻遍了收藏的 5T 资料后,汇总整理出来,可以说是程序员面试必备!所有资料都整理到网盘了,欢迎下载!

点击????卡片,关注后回复【面试题】即可获取

在看点这里好文分享给更多人↓↓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值