天池大数据比赛－天体分类总结

最新推荐文章于 2024-04-02 09:38:39 发布

舟

最新推荐文章于 2024-04-02 09:38:39 发布

阅读量8.8k

点赞数 3

分类专栏：数据挖掘/机器学习文章标签：天池机器学习数据挖掘

本文链接：https://blog.csdn.net/cqlboat/article/details/81057940

版权

本文介绍了天池大数据比赛中的天体分类任务，参赛者需利用机器学习对LAMOST DR3光谱进行STAR/GALAXY/QSO/UNKNOWN四类分类。数据预处理涉及文件拆分和特征聚合，特征工程包含异常值处理和特征筛选，模型调优采用GridSearchCV。最终在比赛中获得83/843的排名。

摘要由CSDN通过智能技术生成

赛题介绍

比赛链接：
https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100150.711.8.5f712784mldsqp&raceId=231646

在天文学中，光谱描述了天体的辐射特性，以不同波长处辐射强度的分布来表示。每条观测得到的光谱主要是由黑体辐射产生的连续谱、天体中元素的原子能级跃迁产生的特征谱线（吸收线、发射线）以及噪声组成。通常天文学家依据光谱的特征谱线和物理参数等来判定天体的类型。在目前的LAMOST巡天数据发布中，光谱主要被分为恒星、星系、类星体和未知天体四大类。 LAMOST数据集中的每一条光谱提供了3690-9100埃的波长范围内的一系列辐射强度值。光谱自动分类就是要从上千维的光谱数据中选择和提取对分类识别最有效的特征来构建特征空间，例如选择特定波长或波段上的光谱流量值等作为特征，并运用算法对各种天体进行区分。

本次大赛旨在通过机器学习算法对LAMOST DR3光谱进行自动分类（STAR/GALAXY/QSO/UNKNOWN），参赛选手需要设计高效高准确率的算法来解决这个天文学研究中的实际问题。

竞赛数据

赛题数据包括索引文件（index.csv）和波段文件（id.txt集合的zip）两部分：

1）索引文件的第一行是字段名，之后每一行代表一个天体。索引文件的第一个字段为波段文件id号。训练集的索引文件记录了波段文件id号以及分类信息，测试集的索引文件记录了波段文件id号，需要预测分类信息。

2）波段文件是txt后缀的文本文件，存储的是已经插值采样好的波段数据，以逗号分隔。所有波段文件的波段区间和采样点都相同，采样点个数都是2600个。

3）带 train 为训练集；带 test 为第一阶段测试集；带 rank 为第二阶段测试集。

Unknown数据补充说明：
1）LAMOST数据集中的unknown类别是由于光谱质量（信噪比低）等原因，未能够给出确切的分类的天体；
2）Unknown分类目前由程序给出，其中不排除有恒星、星系和类星体。

数据预处理

每个样本的特征分布在各个文件中，无法直接使用模型。
一开始想用python的pandas进行特征的聚合，碰到两个问题：
1. 速度太慢
2. 内存占用太大

针对速度问题：该用java读区并处理数据
针对内存问题：并不将所有数据写到一个文件中，而是拆分几个特征文件。

def readTotalFeature(fileName, maxFileIndex, hasLabel=True, partition = 20, ewFeature=True, rawFeature=True, addQsoFeature=True, doScale=True):
    total_train_feature = pd.DataFrame()
    for i in range(0, maxFileIndex+1):
        train_set = pd.read_csv(fileName + str(i) +'.csv', header=None)
        renameCol = {
  0:'id'}
        if hasLabel:
            renameCol[train_set.shape[1]-1] = 'label'
        train_set.rename(columns=renameCol, inplace=True)
        if hasLabel:
            processed_train = pd.DataFrame()
            rawFeature = train_set.iloc[:,1:-1]
        else:

最低0.47元/天解锁文章

舟

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
天池大数据比赛－天体分类总结

赛题介绍比赛链接： https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100150.711.8.5f712784mldsqp&amp;amp;amp;raceId=231646在天文学中，光谱描述了天体的辐射特性，以不同波长处辐射强度的分布来表示。每条观测得到的光谱主要是由黑体辐射产生的连续谱、天体中元素的原子能级跃迁产生的...
复制链接

扫一扫

专栏目录