这两年:我的数据竞赛之路

640?wx_fmt=png

 写在前面     

640?wx_fmt=png


大家好,我是鱼遇雨欲语与余,本次我将带来不一样的分享,这将是我的个人竞赛历程。将从三个部分展开分享,主要竞赛经历、关于我的竞赛和未来竞赛的我。一位竞赛小白是如何一路打怪升级,然后取得不错成绩的,到后来一年获得“两冠四亚一季”的佳绩。这里我尝试记录这两年主要做过的事情和其中的感想,希望对大家有所启发。

首先感谢在这两年竞赛道路上帮助过我的人,@所有人

回想过去的两年,是折腾的两年,也是自我感悟和提升的两年。

640?wx_fmt=png

主要竞赛经历

640?wx_fmt=png

2018,[印象盐城]数创未来大数据竞赛 - 乘用车零售量预测,Rank53

2018,IJCAI-18 阿里妈妈搜索广告转化预测,Rank29

2018,腾讯广告算法大赛,Rank11

2018,JDATA-如期而至-用户行为预测,Rank9

2018,科大讯飞营销算法大赛,冠军

2019,消费者人群画像—信用智能评分,Rank5

2019,TIANCHI-OGeek算法挑战赛,亚军

2019,TIANCHI-全球城市AI挑战赛,季军

2019,JDATA-用户对品类下店铺的购买预测,亚军

2019,腾讯广告算法大赛,冠军

2019,KDD Cup: Context-Aware Multi-Modal Transportation Recommendation,亚军

2019,第四届魔镜杯大赛数据应用大赛,亚军

640?wx_fmt=png

 初次接触竞赛     

640?wx_fmt=png

640?wx_fmt=jpeg

这是我第一次参加的数据竞赛,不得不说,印象深刻,不断的颠覆我的认知。

在经历过机器学习的理论学习,然后到Kaggle入门赛Titanic: Machine Learning from Disaster的学习,给我最初的观念是比赛需要各种各样的数据分析和模型的堆叠。带着这样一种观念,我选择在天池进行第一场比赛,“盐城-乘用车零售量预测”。官网论坛中并没有太多的分享,所有只能参照Kaggle那套,便开始了我的数据分析之路。

640?wx_fmt=png

(如果参赛时能看到这样一篇分析文章,可能我能进top20也说不定呢)


数据分析

当时的数据分析还比较局限,因为并不知道对于时间序列相关问题的着重点和解决方案。并且收到大量异常值的影响,导致重心放在了异常值的处理。对于赛题的目标是预测每一车型的销量,再次出现了纠结的问题,同一车型的变速器档位、变速器形式、排量可能不同。我当时的做法就是用最多的替换。然后还分析了每种车型每月的销量情况,每月的总销量情况。

640?wx_fmt=jpeg
每月销量分析

规则初探

数据的分析并未给我带来太多的提升,主要还是不明白分析的方向。比如时间序列问题,应该考虑趋势性、周期性、循环性。接下来我就想到了一个点子,我就直接用上一个月*120%,直接到了前排。然后之后再也没有超过那个分数,因为后面都是模型跑出来的分数。

640?wx_fmt=jpeg

模型选择

接下来的目标就是超过规则,只能搞模型了。可以看出来,我在特征工程部分做的是非常少的,所作的预处理也是给数据增加噪音和影响准确性的,帮上的只是帮倒忙。模型最终使用的是XGBoost,下面贴出我的远古代码:

import xgboost as xgb	
xgboost_model = xgb.XGBRegressor(colsample_bytree=0.4603, gamma=0.0468, 	
                             learning_rate=0.05, max_depth=3, 	
                             min_child_weight=1.7817, n_estimators=2200,	
                             reg_alpha=0.4640, reg_lambda=0.8571,	
                             subsample=0.5213, silent=1,	
                             random_state =7, nthread = -1)	
xc = ['sale_quantity']+['brand_id']+['sale_month']+['sale_year']	
xtrain = merge_train[merge_train['diff_quantity'].notnull()]	
xtr = xtrain[:][xc]	
xtest = merge_train[merge_train['diff_quantity'].isnull()]	
xte = xtest[:][xc]	
y_diff_train = merge_train['diff_quantity'][merge_train['diff_quan
  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 2008年BCI竞赛数据集分类是指以脑机接口(BCI)技术为基础,对2008年BCI竞赛所提供的相关数据集进行分类的研究和实践。BCI是一种通过直接解读和理解人类脑部活动,使人与计算机或其他外部设备进行直接交互的技术。 在2008年BCI竞赛数据集分类中,首先需要对所提供的数据集进行预处理,包括数据清洗、滤波和特征提取等步骤。数据清洗是为了去除噪音和不必要的信息,确保数据的可靠性和准确性。滤波则是对数据进行频率调整,以消除干扰信号。特征提取是从原始数据中提取出代表脑部活动状态的关键特征。 接下来,需要选择合适的分类算法来对数据进行分类。常用的分类算法包括线性判别分析(LDA)、支持向量机(SVM)、k最近邻(KNN)等。这些算法基于不同的原理和算法逻辑,可以根据特定需求选择最适合的算法。 最后,对于分类结果的评估是非常重要的。常见的评估指标包括准确率、精确率、召回率和F1值等。这些指标可以评估分类器的性能和效果,进而为后续的改进和优化提供依据。 通过对2008年BCI竞赛数据集分类的研究,可以帮助我们更好地理解和应用BCI技术,实现人与计算机之间的有效交互。此外,对于脑机接口技术的发展和应用也有积极的推动作用。 ### 回答2: 2008年BCI竞赛数据集分类任务是一个旨在研究和探索脑机接口(BCI)技术的比赛任务。BCI技术旨在通过从大脑中获取电信号并将其翻译成计算机可识别的形式,实现人类与计算机之间的直接通信。 2008年的BCI竞赛数据集分类任务包括了来自多个实验受试者的脑电信号数据集。这些数据集包括了来自大脑皮层的电信号,通过电极阵列捕获到。竞赛参与者需要利用这些电信号数据进行分析和分类,以实现对特定任务或指令的识别。 对于BCI竞赛数据集分类任务,参与者需要使用机器学习和信号处理的技术,对电信号进行特征提取和分类。常见的方法包括时域和频域特征提取、滤波器设计、空间滤波和模式识别等。 参与者首先需要对收集到的脑电信号进行预处理,包括滤波、去噪和特征提取。预处理后的信号可以用于建立分类模型。模型可以采用传统的分类算法如支持向量机(SVM)、人工神经网络(ANN)或朴素贝叶斯分类器等。此外,也可以利用脑电信号的特殊性质设计特定的分类算法,如基于时空图模型、卷积神经网络(CNN)或循环神经网络(RNN)等。 在分类任务中,竞赛参与者需要使用训练集中的样本数据进行模型训练,并使用测试集中的未标记样本进行分类性能评估。评估指标可以包括准确率、灵敏度和特异度等。参与者需要根据任务要求和数据集特点进行合适的算法和参数选择,以提高分类的准确性和鲁棒性。 总之,2008年BCI竞赛数据集分类任务旨在通过对脑电信号进行分析和分类,促进脑机接口技术的发展和应用。参与者需要应用机器学习和信号处理的方法,通过对信号的特征提取和分类,实现对特定任务或指令的识别。这个任务对于推动BCI技术的研究和发展具有重要意义。 ### 回答3: 2008年BCI竞赛数据集分类是指在2008年举办的BCI竞赛中,参赛者需要对给定的脑电图数据进行分类。BCI(脑机接口)是一种将人脑活动转化为机器输入的技术,通过分析脑电图(EEG)等生物信号,实现对人脑意图和指令的识别和解码。 2008年BCI竞赛数据集分类任务通常包括两个主要方面的分类:二分类和多分类。在二分类任务中,参赛者需要根据脑电图数据判断被试者的意图,例如分辨是想向左还是向右运动。而在多分类任务中,参赛者需要识别被试者的具体意图,比如向左、向右和闭合手等。 竞赛数据集通常由若干个不同被试者的脑电图数据组成,这些数据包含了一系列的时间序列脑电信号。参赛者需要通过对这些数据进行预处理、特征提取和模型训练来实现分类任务。预处理可以包括滤波、降噪和去除伪迹等步骤,以提高数据的质量。特征提取是从脑电信号中提取有用的信息,常用的特征包括时域特征、频域特征和时频特征等。模型训练则是使用机器学习或深度学习算法来构建分类模型,并基于训练数据进行模型的优化和评估。 参赛者通常需要根据竞赛要求进行算法的设计和优化,以提高分类准确度和鲁棒性。竞赛的目的是通过对不同算法的比较和评估,推动BCI技术的发展和应用,促进脑机接口技术在康复、通信和娱乐等领域的应用。 总之,2008年BCI竞赛数据集分类是一个通过对给定的脑电图数据进行分类任务,以推动脑机接口技术发展的竞赛活动。参赛者需要运用预处理、特征提取和模型训练等方法,设计和优化算法,并在竞赛中展示出高准确度和鲁棒性的分类结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值