最近一直在研究机器学习的相关内容,也在kaggle上看了不少前辈的解答思路。作为一个刚入门的小生来说,进步的空间还很大。但是我觉得有必要把我自己对机器学习的看法和认识记录一下,不论对错。
机器学习实际上就是一门与数据打交道的学科,数据在里面体现了非常重要的角色。如果要我一句话说明什么是机器学习的话,我觉得是“通过一直的数据和结论,训练一种模型出来,并根据新的数据来预测结论”。那么,如何做好机器学习呢?从工程的角度上讲,个人觉得回答好了以下几个问题,应该就可以把机器学习“实践”得比较好。
1、 如何做好特征工程?
2、 如何做好数据预处理?
3、 如何根据数据特征选择最优的算法模型?
4、 如何调节参数?
5、 如何最好测试?
当然,要做好这些,必须要“理论”+“经验”。在最近的一段时间,我也会重点从这几个方面寻找答案,把自己看到的、想到的拿出来和大家分享。