因为才疏学浅,如有不对之处,请发邮件指点liedward@qq.com。非常感谢帮忙指正错误。
图:机器学习框架
1、 特征库:特征库就是我们获取用户信息的源头,所有的挖掘判断全部都需要从这个特征库开始,所以特征库的好坏很大程度上决定了整个数据挖掘的好坏。(名言:垃圾进垃圾处出。再好的算法,如果没有准确的信息量做支撑,也不可能预测出好的结果。)
特征库不等于用户画像,特征库是用户画像的底层建设。通常维度与指标是越细越好,比如用户最近一次访问时长,用户最近两次访问时长,用户1,3,5,7天内访问次数。细的颗粒度可以保留最大的用户信息量。
2、 特征处理:在有一定特征库之后,我们需要进行一些清洗从而让机器使用这些数据。比如我们发现近1天流量特征绝大部分的user_id为null,这表明这些用户确实没有上该APP,那么我们需要根据业务意义将所有null改为0,又比如男女性别特征,我们在很多情况下无法获取,那么在缺失值较多的情况我们应该选择放弃该字段。
1和2在传统意义上就是“特征工程”