使用Python将Word表格嵌入Excel中！

最新推荐文章于 2024-07-04 15:06:15 发布

IT农民工1

最新推荐文章于 2024-07-04 15:06:15 发布

阅读量365

点赞数

文章标签：列表 excel poi qml openssh



公众号后台回复“图书“，了解更多号主新书内容
作者：林小呆
来源：数据分析与统计学之美

今日需求

其实就是把Word中的表格转到Excel中，顺便做一个调整。这个需求在实际工作中，很多人还是经常碰到的！

如果单单是两个表格，那只要简单的复制黏贴即可，但如果上百了呢？那就得考虑自动化了。好在今天碰到的需求中的原文件格式是比较有规律的，那直接来尝试一下。

# 首先要pip install python-docx
# 如果原文件是doc格式，那就先转成docx
from docx import Document
import pandas as pd

path = "./word表格转excel.docx"
docx = Document(path)
table_s = docx.tables  # 返回一个Table对象的列表

len(table_s) --> 2 # 返回值是2，因为原文件中只有两个表格

list_ = []  # 初始化一个空列表，用来装后面的dict_

for table in table_s:  # 循环所有的表格列表
    dict_ = {}
    dict_['名称'] = table.cell(0, 1).text  # 表格的索引是从（0行，0列）开始
    dict_['身份'] = table.cell(0, 3).text
    dict_['简介'] = table.cell(1, 1).text
    for i in range(3, len(table.rows)):  # 后续的内容格式不固定，所以循环获取
        dict_[table.cell(i, 0).text] = table.cell(i, 1).text
    list_.append(dict_)

当完成上述操作后,list_就会是一个字典列表。

接下来，将列表转为DataFrame进行操作即可。

df = pd.DataFrame(list_)

# 先将前三列作为索引，然后逆透视其他列，其实这就是个一维表转二维表的过程
df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame()

# 重新设置一下行列索引的名字
df.index.names = ['名称', '身份', '简介', '物质']
df.columns = ['现状']

此时的df就跟需求结果相差不大了。

最后将DataFrame导出，稍作美化即可完成需求。

# 导出的时候一定要设置index=True不然只会保留一列Series
df.to_excel("data3.xlsx", index=True, merge_cells=True)

完整代码

# 首先要pip install python-docx
# 如果原文件是doc格式，那就先转成docx
from docx import Document
import pandas as pd

path = "./word表格转excel.docx"
docx = Document(path)
table_s = docx.tables  # 返回一个Table对象的列表

list_ = []  # 初始化一个空列表，用来装后面的dict_

for table in table_s:  # 循环所有的表格列表
    dict_ = {}
    dict_['名称'] = table.cell(0, 1).text  # 表格的索引是从（0行，0列）开始的
    dict_['身份'] = table.cell(0, 3).text
    dict_['简介'] = table.cell(1, 1).text
    for i in range(3, len(table.rows)):  # 循环获得后面的内容
        dict_[table.cell(i, 0).text] = table.cell(i, 1).text
    list_.append(dict_)

df = pd.DataFrame(list_)

# 先将前三列作为索引，然后逆透视其他列，就是个一维表转二维表的过程
df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame()

# 重新设置一下行列索引的名字
df.index.names = ['名称', '身份', '简介', '物质']
df.columns = ['现状']

# 导出的时候一定要设置index=True不然只会保留一列Series
df.to_excel("data3.xlsx", index=True, merge_cells=True)

◆ ◆ ◆  ◆ ◆麟哥新书已经在当当上架了，我写了本书：《拿下Offer-数据分析师求职面试指南》，目前当当正在举行活动，大家可以用相当于原价5折的预购价格购买，还是非常划算的：



数据森麟公众号的交流群已经建立，许多小伙伴已经加入其中，感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容，还没有加入的小伙伴可以扫描下方管理员二维码，进群前一定要关注公众号奥，关注后让管理员帮忙拉进群，期待大家的加入。
管理员二维码：
猜你喜欢
● 卧槽！原来爬取B站弹幕这么简单● 厉害了！麟哥新书登顶京东销量排行榜！● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主！● 你相信逛B站也能学编程吗

IT农民工1

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
使用Python将Word表格嵌入Excel中！

公众号后台回复“图书“，了解更多号主新书内容作者：林小呆来源：数据分析与统计学之美今日需求其实就是把Word中的表格转到Excel中，顺便做一个调整。这个需求在实际工作中，很多人...
复制链接

扫一扫