在对比了人类逻辑和机器学习后,对整个机器学习的优点和缺点有了明确的理解,同时对其的重点和难点也有了一点认识.机器学习就是要做到
1数据正确
2特征能够表征数据
3模型状态适合
4预测结果分析
基于以上的要点,将机器学习的过程总结如下:
1 数据预处理
在这个阶段,需要的工作一般有异常值处理,缺失只处理,编码数据等,其目的就是要保证数据正确有效,便于程序处理.唯有如此才能够学习到数据中真正的模式.
2 初步找寻特征,输出的关系
可以大胆的尝试,猜测和构建,然后按照这种尝试和猜测提取特征
3 构建一个baseline 模型,
一般现在通用的模型有xgb,lgb,初步设置参数,然后测试模型的效果.在看到效果后,可以根据学习曲线,看看模型是欠拟合还是过拟合,根据状态,就可以采取后续措施.
4基于结果分析,特征特性分析
根据模型的结果,加上最开始的一种猜测,结合起来,分析特征的不足,增加或者减少特征.
5 融合产生新的特征
根据分析,尝试将重要性的特征进行融合,然后加入其中,测试模型的效果
6重新训练模型,细调参数
7特征选择
根据我调试的经验,一般喜欢将模型变得稍微有点过拟合,这证明特征的信息比较的有效,.然后再去做特征选择和优化
8模型融合
为了进一步提升模型的性能,可以将多种模型融合
9 反复迭代
数据驱动的算法,就是不停的迭代,分析和评测.