方法 1:使用 Excel “删除重复项” 功能(适用于简单数据)
步骤:
-
打开 Excel 文件,选中包含数据的整个表格(
Ctrl + A
)。 -
点击“数据” → “删除重复项”。
-
在弹出的窗口中,勾选需要去重的列(例如“姓名”+“手机号”)。
-
点击“确定”,Excel 将自动删除重复的行,仅保留第一条数 适用场景:
-
数据量较小(<10 万行)。
-
不需要合并其他字段,只保留第一条数据。
不足:
适用场景:
-
无法合并 同一组数据的不同字段值。
-
仅保留第一条记录,其他数据会丢失
-
方法 2:使用 Excel Power Query(适用于中等数据量)
Power Query 提供了更强大的数据整理能力,包括去重和数据合并。
步骤
-
选中数据区域 → 点击 “数据” → “从表格/范围”。
-
在 Power Query 编辑器 中,选中需要去重的列(例如“订单号 + 用户名”)。
-
数据量较大(10-100 万行)。
-
希望合并重复项的其他字段。
-
点击“主页” → “删除重复项”,Power Query 会保留第一条数据。
-
如果需要合并其他字段:
-
点击“分组依据” → 选择“所有行” → 展开其他列数据。
-
-
方法 3:使用 Python 进行去重(适用于大数据处理)
如果 Excel 处理数据缓慢,可以使用 Python pandas 库进行去重
-
import pandas as pd # 读取 Excel 文件 file_path = "数据.xlsx" df = pd.read_excel(file_path) # 按多个字段去重(合并其他列数据) df_grouped = df.groupby(["实验课程名称", "专业"]).agg(lambda x: ', '.join(map(str, x.unique()))).reset_index() # 保存去重后的数据 df_grouped.to_excel("去重后的数据.xlsx", index=False) print("去重完成,数据已保存!")
-