pandas处理数据代码：分组聚合、保留重复行、删除重复行

在902成长

已于 2023-06-03 16:54:54 修改

阅读量2.2k

点赞数 4

文章标签： python 数据挖掘数据分析

于 2021-12-17 12:32:24 首次发布

本文链接：https://blog.csdn.net/qq_41919183/article/details/121993507

版权

txt转csv

import numpy as np
import pandas as pd

 txt=np.loadtxt('1216.txt')
 txtDF=pDataFrame(txt)
txtDF.to_csv('1216.csv',index=False)

删除重复行（删除所有、保留第一次出现的重复行、保留最后一次出现的重复行)

df1=pd.read_csv('1216gg.csv')
df1=df1.astype(str)
df1.drop_duplicates(subset=['0','1','2','3','4','5','6','7','8','9'],keep='first',inplace=True)
df1.to_csv('1216ggg.csv',index=False)


//subset可自定义查看哪几列重复

保留重复行

道理很简单 ：

对一个csv文件df 首先去重 保留第一次出现的重复行 得到 df1

           其次 去除所有重复行 得到 df2

df1.append(df2)  
再对df1去除所有重复行 便得到df1中原来的重复行

每隔n行取一行

 data = pd.read_csv('lcy.csv')
 df = pd.DataFrame(data)
 a=[]
 for i in range(0,len(df),10):##每隔20行取数据
     a.append(i)
 file = df.iloc[a]
 f = pd.DataFrame(file)
 f.to_csv(r'lcy112.csv', index=False,encoding='utf_8_sig')
 print('ok')

分组聚合示例为分组求平均

 df1=pd.read_csv('1216gg.csv')
 f=df1.groupby(['1','2','3','4','5','6','7','8','9']).transform(lambda x:x.mean())
 f.to_csv('1216aaa.csv',index=False)

总结：pandas真的很强大本来想实现的目的，没想到pandas里都能实现

关注博主即可阅读全文