机器学习框架

因为才疏学浅,如有不对之处,请发邮件指点liedward@qq.com。非常感谢帮忙指正错误。

图:机器学习框架

1、  特征库:特征库就是我们获取用户信息的源头,所有的挖掘判断全部都需要从这个特征库开始,所以特征库的好坏很大程度上决定了整个数据挖掘的好坏。(名言:垃圾进垃圾处出。再好的算法,如果没有准确的信息量做支撑,也不可能预测出好的结果。)

特征库不等于用户画像,特征库是用户画像的底层建设。通常维度与指标是越细越好,比如用户最近一次访问时长,用户最近两次访问时长,用户1,3,5,7天内访问次数。细的颗粒度可以保留最大的用户信息量。

2、  特征处理:在有一定特征库之后,我们需要进行一些清洗从而让机器使用这些数据。比如我们发现近1天流量特征绝大部分的user_id为null,这表明这些用户确实没有上该APP,那么我们需要根据业务意义将所有null改为0,又比如男女性别特征,我们在很多情况下无法获取,那么在缺失值较多的情况我们应该选择放弃该字段。

1和2在传统意义上就是“特征工程”
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值