excel表格按照多个字段去重

DreamNotOver

于 2025-03-23 10:39:48 发布

阅读量521

点赞数 4

文章标签： excel python pandas

本文链接：https://blog.csdn.net/lwhsyit/article/details/146452687

版权

方法 1：使用 Excel “删除重复项” 功能（适用于简单数据）

步骤：

打开 Excel 文件，选中包含数据的整个表格（Ctrl + A）。
点击“数据” → “删除重复项”。
在弹出的窗口中，勾选需要去重的列（例如“姓名”+“手机号”）。
点击“确定”，Excel 将自动删除重复的行，仅保留第一条数 适用场景：

数据量较小（<10 万行）。
不需要合并其他字段，只保留第一条数据。

不足：

适用场景：

无法合并 同一组数据的不同字段值。
仅保留第一条记录，其他数据会丢失
方法 2：使用 Excel Power Query（适用于中等数据量）

Power Query 提供了更强大的数据整理能力，包括去重和数据合并。

步骤
选中数据区域 → 点击 “数据” → “从表格/范围”。
在 Power Query 编辑器 中，选中需要去重的列（例如“订单号 + 用户名”）。
数据量较大（10-100 万行）。

希望合并重复项的其他字段。

点击“主页” → “删除重复项”，Power Query 会保留第一条数据。
如果需要合并其他字段：
- 点击“分组依据” → 选择“所有行” → 展开其他列数据。
方法 3：使用 Python 进行去重（适用于大数据处理）

如果 Excel 处理数据缓慢，可以使用 Python pandas 库进行去重

import pandas as pd

# 读取 Excel 文件
file_path = "数据.xlsx"
df = pd.read_excel(file_path)

# 按多个字段去重（合并其他列数据）
df_grouped = df.groupby(["实验课程名称", "专业"]).agg(lambda x: ', '.join(map(str, x.unique()))).reset_index()

# 保存去重后的数据
df_grouped.to_excel("去重后的数据.xlsx", index=False)

print("去重完成，数据已保存！")