本文主要讲述机器学习在实际应用中的一般性步骤,包括基本技术、经验和技巧。
下面先给出一张机器学习整体的概览图:
从上图可以看出,有两个流程:
- 离线训练流程(蓝色箭头),包含数据筛选和清洗、特征抽取、模型训练和优化模型等环节;
- 应用流程(绿色箭头),对需 要预估的数据,抽取特征,应用离线训练得到的模型进行预估,获得预估值作用在实际产品中
通过以上可以得出机器学习应用的整个步骤如下:
业务问题->技术目标->对问题建模->准备训练数据->数据预处理->特征选择->训练模型->优化模型->模型应用->上线部署
以互联网的下单率预测为例说明上述机器学习的一般性步骤:
业务问题
提高用户的用户体验,帮助用户更快更好地找到自己想买的单子
技术目标
上述目标看起来比较虚,我们需要将其转换成一个技术目标,便于度量和实现。最终确定的技术目标是点击下单率预估,去预测用户点击或者购买团购单的概率。
将预测出来点击或者下单率高的单子排在前面,预测的越准确,用户在排序靠前的单子点击、下单的就越多,省去了用户反复翻页的开销,很快就能找到自己想要的单子