这段时间一直在博客上面吸取日月精华,上面真是高手如云,甚是热闹,不仅让我有一种冲动,好来一场华山论剑。
对前段时间的充当炮灰比赛总一下总结。希望对你有所帮助!
武器库
俗话说,台上一分钟、台下十年功。虽然参加数据科学竞赛不需要十年的修炼,但还是需要一些基础的知识技能作为支撑的,我讲以下几个方面。
计算机科学和机器学习的相关应用都是实践性很强的项目。任何一门有关编程语言的教材,看一周的时间足够了。关键在于动手实践,做项目做比赛,也就是任务驱动型学习。关于编程我还想说一个原则,就是“天下文章一大抄,看你会抄不会抄”。在做一个任务时,你的代码能复制粘贴就不要自己敲。
除了以上这些武器之外,你还需要知道做比赛的流程。参与一个数据科学竞赛,大致需要这么几个步骤:赛题分析,数据探索,数据预处理,特征构造,特征选择,模型选择,模型优化,模型融合,预测提交。其中数据预处理、特征构造、特征选择合起来可以称之为特征工程。然后,还需要一个有效的迭代策略来管理你的idea和代码。做比赛之前一定要将此流程牢记于心并一步一步地进行,下面就让我为大家介绍图中的每一步具体是如何操作的。
赛题分析
在我看来啊,赛题分析其实是在解决战略层面的问题,这一块其实是非常重要的,但市面上的很多开源的经验分享往往有意回避这一块内容,只谈各种具体的方法和技巧。殊不知,真正做成一件事,不仅需要“术”,还需要“道”,但