【python】使用python对csv表格某一列的重复数据去重

本文介绍了如何使用Python处理CSV文件,通过将数据转化为DataFrame,然后利用特定列进行去重操作。可以选择保留第一次出现的数据或者最后一次出现的数据,甚至完全去除所有重复项。
摘要由CSDN通过智能技术生成
import pandas as pd
import csv

l = list()
with open('Result.csv','r') as read:
    reader = csv.reader(read)
    for i in reader
  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您好!您提出的问题涉及到Python中处理CSV文件的操作。下面是一个Python示例代码,可以实现将一个文件夹中的所有CSV文件合并,并对某一列进行去重处理,除了第一个文件的表头外其余行都去掉: ```python import os import csv folder_path = '文件夹路径' # 指定文件夹路径 output_file = '输出文件路径' # 指定输出文件路径 merge_columns = '指定去重的列' # 指定需要去重的列,例如‘ID’ output_rows = [] first_file = True for file_name in os.listdir(folder_path): # 遍历文件夹中所有的CSV文件 if not file_name.endswith('.csv'): continue with open(os.path.join(folder_path, file_name), newline='', encoding='utf-8') as csv_file: csv_reader = csv.DictReader(csv_file) for row in csv_reader: if first_file: output_rows.append(row) # 如果是第一个文件,将整个行添加到输出列表 first_file = False else: is_duplicate = False # 判断当前行是否与之前的行有重复 for output_row in output_rows: if row[merge_columns] == output_row[merge_columns]: is_duplicate = True break if not is_duplicate: output_rows.append(row) # 如果没有重复,将整个行添加到输出列表 # 将输出列表写入到输出文件 with open(output_file, 'w', newline='', encoding='utf-8') as csv_file: writer = csv.DictWriter(csv_file, output_rows[0].keys()) writer.writeheader() for output_row in output_rows: writer.writerow(output_row) print('合并CSV文件并去重完成!') ``` 您只需要将示例代码中的‘文件夹路径’替换成您的实际文件夹路径,‘输出文件路径’替换成您期望输出的文件路径,‘指定去重的列’替换成您期望的去重列,就可以使用上述示例代码合并CSV文件并去重了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值