本文参考在线文章整理而成。
对于机器学习的模型如何使用到实际场景,有8个步骤。一般而言,你需要定义需要解决的商业问题,确定哪些数据需要收集,判断最后输出结果如何衡量有效。然后你就可以执行这8步了。
- 准备数据,创建对应的特征值
大量的原始数据,在分析前需要收集并转换成便于分析的格式,这个工作称之为 feature engineering ,对于一个复杂的项目,耗时可能需要数月。 - 挑选特征值
当有成百上千特征值后,有些特征值是无关的或者重复的,它们只会给模型带来干扰,严重影响训练效率。这里需要做数据清洗。数据清洗的需要结合对于业务的理解以及一些数学技巧,如最小冗余最大相关1(mRMR,特征值与输出结果关联度最大,而特征值间关联度最小 代码参见此处 ) - ==降低维度==
很多特征值彼此相关,可以采用PCA和deep autoencoder的方式将数据变为更为互相独立的集合。
==这个与挑选特征值的关联是什么?递进?比较提到特征值有重复,莫非只是指业务上重复?而这里指数学上?==