重复源的筛选

夜观天象昼编程

已于 2023-05-11 05:43:13 修改

阅读量283

点赞数 2

分类专栏： pandas使用文章标签： python pandas

于 2022-11-01 15:56:38 首次发布

本文链接：https://blog.csdn.net/qq_37066410/article/details/127634873

版权

pandas使用专栏收录该内容

3 篇文章 1 订阅

订阅专栏

在天文学中有一些数据中是有很多重复源的，例如LAMOST，大约有20%的重复观测，实际使用中，我们应当去掉重复源，否则在数据拟合或者进行机器学习的时候，会导致部分源的权重偏大，导致模型拟合的不好

对于重复源，一般是两种做法，如果数据中有信噪比，那么我们肯定是选择重复源中信噪比最大的一个数据，如果没有信噪比，那么我们就应该对重复源求一个平均值或者中位数，

假设我们有一组数据，他们的ID代表一颗星的名字，那么有信噪比的代码如下：

import pandas as pd

data = pd.rea_csv('你的数据名.csv')
# 假设信噪比列名为snrg
idx = data.groupby('ID')['snrg'].idxmax()
df_max_snr = data.loc[idx]
#根据ID确定重复源并对重复值保留最大信噪比的数据

无信噪比的时候取平均数：

import pandas as pd

data = pd.rea_csv('你的数据名.csv')
no_duplicat_data_mean = data.groupby('ID').mean()
#根据ID确定重复源并对重复值保留平均值

使用groupby求平均的时候，只会对数值列求平均，str列会被直接丢掉，对此，我们进行如下操作：

import pandas as pd

data = pd.rea_csv('你的数据名.csv')

cols_to_mean = list(data.columns.drop('TYPE'))

# 以 ID列分组，保留TYPE列，并对其他列求平均值
result = df.groupby(['ID']).agg({'TYPE':'first',cols_to_mean: 'mean'})

如果要保留的str列有很多，也可以把他们的列名写成一个列表取代'TYPE'。

注意：此篇文章曾经发布过两个非常复杂的去重复源做法，旧的方法都被我删除了，现在的做法更加简洁易懂，并且快非常多，有信噪比的情况下，几百万数据会在几分钟搞定，没有信噪比的情况下，几百万数据会在几秒钟搞定。

夜观天象昼编程

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
重复源的筛选

在天文学中有一些数据中是有很多重复源的，例如LAMOST，大约有20%的重复观测，实际使用中，我们应当去掉重复源，否则在数据拟合或者进行机器学习的时候，会导致部分源的权重偏大，导致模型拟合的不好。对于重复源，一般是两种做法，如果数据中有信噪比，那么我们肯定是选择重复源中信噪比最大的一个数据，如果没有信噪比，那么我们就应该对重复源求一个平均值或者中位数，
复制链接

扫一扫

专栏目录