python处理含重复值的实验数据

贺俊宏

已于 2022-03-05 16:16:30 修改

阅读量1k

点赞数

分类专栏： python使用和学习文章标签： python 数据处理

于 2022-03-05 16:11:24 首次发布

本文链接：https://blog.csdn.net/recher_he1107/article/details/123296032

版权

python使用和学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

该博客介绍了如何使用Pandas库对数据进行分组，并通过过滤logD值的最大值与最小值差距超过30%的记录来清洗数据。之后，利用平均值对Smiles(InChiKey)进行去重操作，从而得到精简且平均化的数据集。

摘要由CSDN通过智能技术生成

项目场景：

师妹有这样一张表:
在这里插入图片描述
希望能按inchikey进行分组,然后删除掉logD最大值最小值数据相差超过百分之三十的数据,对剩下的数据进行取平均数的方法进行去重

解决方案：

import pandas as pd

data = pd.read_csv("xxxxxxxxx")

#删除浮动超过百分之30的数据
data_valid = data.groupby(
  	["Smiles (InChiKey)"], as_index=False).filter(
	lambda x:max(x.logD.values) - min(x.logD.values) <= 0.3 * min(x.logD.values))

#利用平均值去重
result = data_valid.groupby(
	["Smiles (InChiKey)"], as_index=False).agg({
    	"Smiles (InChi)": lambda x: x.iloc[0],
    	"Smiles": lambda x: x.iloc[0],
    	"logD": 'mean'})