导言:一般是从离线数据中学习得到,离线数据是保存在Hive中的,通过机器学习算法将Hive中的数据进行分析,得到一个pCtr模型;
对于在线工程而言,实现一个通过配置把离线模型加载进去的在线部分,的确没什么工作量,几行代码;但,要实现一个真正强的在线部分,都要几周时间完成;
一、离线部分
粗糙版就是python单机就可以
步骤:join、norm、binarize、train
join:多个数据源的数据通过key进行jion,得到数据
Norm、Binaries是对数据进行变换;LR算法决定