问题描述:
原始数据是天猫用户4个月的行为日志,日志的格式为(user_id,brand_id,action_type,date),其中四种行为分为用户的点击、购买、收藏和添加购物车。总共的日志条目达到了亿级,均匀分布在给定的4个月中。总的用户数为千万级,品牌数为万级。需要预测的目标是用户在下个月会对哪些品牌有购买行为。评价指标是经典的F1指标。
看了一下阿里大数据竞赛top9的算法,发现挺有意思的。数据的处理、feature的提取一般都是最重要的,能弄个几百维的feature还是比较费心思的。model方面gbdt还是很受欢迎的,包括我现在做的项目。也许是因为阿里提供了gbdt的接口,用起来非常方便。不过感觉F1最多也就6点多,看来预测还真是难啊。。。
不过,machine learning还真是有趣:)