import pandas as pd # 读取Excel文件 def read_excel(file_path): return pd.read_excel(file_path) # 处理数据,去除重复的无序对 def remove_duplicates(df): # 创建一个新的列,包含排序后的列组合作为标识 df['sorted_pair'] = df.apply(lambda row: tuple(sorted((row['行'], row['列']))), axis=1) # 对这个新列进行分组,并保留每组中的第一个元素 # 注意:这里我们使用 sort_values 来确保原始顺序中的第一个元素被保留 df_sorted = df.sort_values(by=['sorted_pair', '行', '列']).drop_duplicates(subset='sorted_pair', keep='first') # 删除辅助列 df_unique = df_sorted.drop(columns=['sorted_pair']) return df_unique # 将处理后的数据保存回Excel文件 def save_to_excel(df, file_path): df.to_excel(file_path, index=False) # 主函数 def main(): input_file = 'input.xlsx' # 输入文件路径 output_file = 'output.xlsx' # 输出文件路径 # 读取Excel文件 df = read_excel(input_file) # 假设Excel中的列名为'A'和'B' # 如果列名不同,请相应地修改 # 去除重复的无序对 df_unique = remove_duplicates(df) # 保存结果到新的Excel文件 save_to_excel(df_unique, output_file) print("处理完成,结果已保存到:", output_file) if __name__ == "__main__": main()
04-25
2万+