python在excel中因为某列重复,删除重复行的其他列内容,只删除重复行的其他列单元格内容,不删除整行也不删除整列

 例如以下内容:

 变成如下:

 

 完整代码如下:

import pandas as pd

# 读取Excel文件
df = pd.read_excel('your_file.xlsx')

# 根据某一列的重复值进行处理
duplicate_column = 'column_name'  # 指定要处理的列名

# 获取重复行的索引
duplicate_rows = df[df.duplicated(subset=duplicate_column)].index

# 删除重复行的其他列单元格内容
columns_to_keep = ['column_name_1', 'column_name_2']  # 指定要保留的列名(除了重复列之外)
df.loc[duplicate_rows, columns_to_keep] = ''

# 将数据保存到新的Excel文件中
df.to_excel('new_file.xlsx', index=False)

如果变成这样:

 完整代码如下:

import pandas as pd

# 读取Excel文件
df = pd.read_excel('student.xlsx')

# 根据某一列的重复值进行处理
duplicate_column = 'FVOUCHERGROUPNO'  # 指定要处理的列名

# 获取重复行的索引
duplicate_rows = df[df.duplicated(subset=duplicate_column)].index
# 删除重复行的其他列单元格内容
columns_to_keep = ['FVOUCHERGROUPID#Name','FDate']  # 指定要保留的列名(除了重复列之外)
df.loc[duplicate_rows, columns_to_keep] = ''


# 根据指定列的重复值进行标记
df['is_duplicate'] = df.duplicated(subset=duplicate_column, keep='first')
# 删除重复的内容,但保留第一个重复值
df.loc[df['is_duplicate'], duplicate_column] = ' '
# 删除标记列
df.drop('is_duplicate', axis=1, inplace=True)

# 将数据保存到新的Excel文件中
df.to_excel('student.xlsx', index=False)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值