python在excel中因为某列重复，删除重复行的其他列内容，只删除重复行的其他列单元格内容，不删除整行也不删除整列

最新推荐文章于 2023-07-13 16:16:37 发布

m0_53036448

最新推荐文章于 2023-07-13 16:16:37 发布

阅读量446

点赞数 1

文章标签： python excel 开发语言

本文链接：https://blog.csdn.net/m0_53036448/article/details/131595751

版权

例如以下内容：

变成如下：

完整代码如下：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('your_file.xlsx')

# 根据某一列的重复值进行处理
duplicate_column = 'column_name'  # 指定要处理的列名

# 获取重复行的索引
duplicate_rows = df[df.duplicated(subset=duplicate_column)].index

# 删除重复行的其他列单元格内容
columns_to_keep = ['column_name_1', 'column_name_2']  # 指定要保留的列名（除了重复列之外）
df.loc[duplicate_rows, columns_to_keep] = ''

# 将数据保存到新的Excel文件中
df.to_excel('new_file.xlsx', index=False)

如果变成这样：

完整代码如下：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('student.xlsx')

# 根据某一列的重复值进行处理
duplicate_column = 'FVOUCHERGROUPNO'  # 指定要处理的列名

# 获取重复行的索引
duplicate_rows = df[df.duplicated(subset=duplicate_column)].index
# 删除重复行的其他列单元格内容
columns_to_keep = ['FVOUCHERGROUPID#Name','FDate']  # 指定要保留的列名（除了重复列之外）
df.loc[duplicate_rows, columns_to_keep] = ''


# 根据指定列的重复值进行标记
df['is_duplicate'] = df.duplicated(subset=duplicate_column, keep='first')
# 删除重复的内容，但保留第一个重复值
df.loc[df['is_duplicate'], duplicate_column] = ' '
# 删除标记列
df.drop('is_duplicate', axis=1, inplace=True)

# 将数据保存到新的Excel文件中
df.to_excel('student.xlsx', index=False)

m0_53036448

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
python在excel中因为某列重复，删除重复行的其他列内容，只删除重复行的其他列单元格内容，不删除整行也不删除整列

【代码】python在excel中因为某列重复，删除重复行的其他列内容，只删除重复行的其他列单元格内容，不删除整行也不删除整列。
复制链接

扫一扫