重复源的筛选

在天文学中有一些数据中是有很多重复源的,例如LAMOST,大约有20%的重复观测,实际使用中,我们应当去掉重复源,否则在数据拟合或者进行机器学习的时候,会导致部分源的权重偏大,导致模型拟合的不好

对于重复源,一般是两种做法,如果数据中有信噪比,那么我们肯定是选择重复源中信噪比最大的一个数据,如果没有信噪比,那么我们就应该对重复源求一个平均值或者中位数,

假设我们有一组数据,他们的ID代表一颗星的名字,那么有信噪比的代码如下:

import pandas as pd

data = pd.rea_csv('你的数据名.csv')
# 假设信噪比列名为snrg
idx = data.groupby('ID')['snrg'].idxmax()
df_max_snr = data.loc[idx]
#根据ID确定重复源并对重复值保留最大信噪比的数据 

无信噪比的时候取平均数:

import pandas as pd

data = pd.rea_csv('你的数据名.csv')
no_duplicat_data_mean = data.groupby('ID').mean()
#根据ID确定重复源并对重复值保留平均值

使用groupby求平均的时候,只会对数值列求平均,str列会被直接丢掉,对此,我们进行如下操作:

import pandas as pd

data = pd.rea_csv('你的数据名.csv')

cols_to_mean = list(data.columns.drop('TYPE'))

# 以 ID列分组,保留TYPE列,并对其他列求平均值
result = df.groupby(['ID']).agg({'TYPE':'first',cols_to_mean: 'mean'})

如果要保留的str列有很多,也可以把他们的列名写成一个列表取代'TYPE'。

注意:此篇文章曾经发布过两个非常复杂的去重复源做法,旧的方法都被我删除了,现在的做法更加简洁易懂,并且快非常多,有信噪比的情况下,几百万数据会在几分钟搞定,没有信噪比的情况下,几百万数据会在几秒钟搞定。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值