笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。
我的公众号为:livandata
本文为转载文章,来源为: https://blog.csdn.net/Snoopy_Yuan/article/details/75105724
一直在探索数据挖掘、数据建模的案例,百度搜到这篇文章,收获颇丰,转载以作记录。
移动推荐算法是阿里天池赛2015年赛题之一,题目以移动电商平台的真实用户-商品行为数据为基础来构建商品推荐模型。该题现已成为新人入门的经典演练对象,博主也希望基于该题场景,加深对机器学习相关知识的理解,积累实践经验。关于题目回顾与数据初探,可参考:天池离线赛 - 移动推荐算法(一):题目与数据解析,本文讨论如何进行特征构建,为之后基于模型的方法实现提供支持。
特征工程回顾
特征工程是机器学习方法在工业界得到有效应用的基础。业界普遍的认为:数据和特征决定了学习的上限,而模型和算法只是在逼近这个上限。所以,做好特征工程,是高效实现机器学习和数据挖掘任务的基础。关于特征工程的详细内容,可参考:特征工程到底是什么? - 知乎。
特这构建与选取是特征工程的重要内容,包括:
- 结合业务对象和数据可用性确定所需特征(包括特征的定义、数值特性、特征组合衍生…);
- 基于原始数据构建特征数据并作基本预处理(SQL、数据清洗…);
- 针对不同模型进行特征预处理,包括采样、单个特征预处理(归一化、离散化、缺值处理…)、多个特征的处理(PCA、LDA、Clustering、卡方检验、相关系数、正则化…);
- 在模型训练中分析选取特征(有效性、重要性);
- 。。。
特征构建
预研思路
首先给出特征构建时的一些思路:
-
由于用户行为对购买的影响随时间减弱,根据分析,用户在一周之前的行为对考察日是否购买的影响已经很小,故而只考虑距考察日一周以内的特征数据。
-
由于数据来源于垂直电商,其特点是线上购买线下消费,猜测其购买行为具有一定的周期性,进一步猜测行为周期为一个星期。待预测目标考察日为 12.19 ,是星期五,所以分割出11.18~12.18数据中的四段以星期五为考察日,一周为考察期的数据,一共有4组,其中一组涉及双十二异常期,故而省区,还剩下三组数据如下:
part 1 - train: 11.22~11.27 -> 11.28; part 2 - train: 11.29~12.04 -> 12.05; part 3 - pred: 12.13~12.18 (-> 12.19);
其中 part 1 和 part 2 可作为模型训练和验证数据集,part 3 为测试数据集;
-
针对当前业务背景,考虑从user、item、item_category三大基本维度及其组合入手进行特征构建,简称U、I、C。
-
由于问题已被明确为 U-I 是否发生购买行为(标记label取{0,1])的分类问题,最终的特征数据均要合并到生成以 U-I 为index(key)的样本集上来。进一步地,如要考虑所有可能的 U-I ,必将面临组合爆炸的问题,所以这里只关注在距考察日一周以内出现过的 U-I 。
特征构建
这里将所需构建的特征分为六大类:U、I、C、UI、UC、IC,对每类分别结合行为次数、时间、排序等视角设计特征。考虑到样本规模,特征数量不宜太少,这里我们设计了约100个特征来进行第一季的数据任务,具体的特征选择及定义见下表:
特征名称 | 所属类别 | 特征含义 | 特征作用 | 特征数量 |
---|---|---|---|---|
u_b_count_in_n(n=1/3/6) | U | 用户在考察日前n天的行为总数计数 | 反映了user_id的活跃度(不同时间粒度:最近1天/3天/6天) | 3 |
u_bi_count_in_n(i=1/2/3/4,n=1/3/6) | U | 用户在考察日前n天的各项行为计数 | 反映了user_id的活跃度(不同时间粒度),反映了user_id的各项操作的活跃度,折射出user_id的购买习惯 | 12 |
u_b4_rate | U | 用户的点击购买转化率 | 反映了用户的购买决策操作习惯 | 1 |
u_b4_diff_hours | U | 用户的点击购买平均时差 | 反映了用户的购买决策时间习惯 | 1 |
i_u_count_in_n | I | 商品在考察日前n天的用户总数计数 | 反映了item_id的热度(用户覆盖性) | 3 |
i_b_count_in_n | I | 商品在考察日前n天的行为总数计数 | 反映了item_id的热度(用户停留性) | 3 |
i_bi_count_in_n | I | 商品在考察日前n天的各项行为计数 | 反映了item_id的热度(用户操作吸引),折射出item_id产生的购买习惯特点 | 12 |
i_b4_rate | I | 商品的点击购买转化率 | 反映了商品的购买决策操作特点 | 1 |
i_b4_diff_hours | I | 商品的点击购买平均时差 | 反映了商品的购买决策时间特点 | 1 |
c_u_count_in_n | C | 类别在考察日前n天的用户总数计数 | 反映了item_category的热度(用户覆盖性) | 3 |
c_b_count_in_n | C | 类别在考察日前n天的行为总数计数 | 反映了item_category的热度(用户停留性) | 3 |
c_bi_count_in_n | C | 类别在考察日前n天的各项行为计数 | 反映了item_category的热度(用户操作吸引),包含着item_category产生的购买习惯特点 | 12 |
c_b4_rate | C | 类别的点击购买转化率 | 反映了item_category的购买决策操作特点 | 1 |
c_b4_diff_hours | C | 类别的点击购买平均时差 | 反映了item_category的购买决策时间特点 | 1 |
ic_u_rank_in_c | IC | 商品在所属类别中的用户人数排序 | 反映了item_id在item_category中的热度排名(用户覆盖性) | 1 |
ic_b_rank_in_c | IC | 商品在所属类别中的行为总数排序 | 反映了item_id在item_category中的热度排名(用户停留性) | 1 |
ic_b4_rank_in_c | IC | 商品在所属类别中的销量排序 | 反映了item_id在item_category中的热度排名(销量) | 1 |
ui_b_count_in_n | UI | 用户-商品对在考察日前n天的行为总数计数 | 反映了user_id - item_id的活跃度 | 3 |
ui_bi_count_in_n | UI | 用户-商品对在考察日前n天的各项行为计数 | 反映了user_id - item_id的活跃度,反映了user_id - item_id的各项操作的活跃度,对应着user_id - item_id的购买习惯 | 12 |
ui_bi_last_hours | UI | 用户-商品对各项行为上一次发生距考察日的时差 | 反映了user_id - item_id的活跃时间特征 | 4 |
ui_b_count_rank_in_n_in_u | UI | 用户商品对的行为在用户所有商品中的排序 | 反映了user_id对item_id的行为偏好 | 3 |
ui_b_count_rank_in_n_in_uc | UI-UC | 用户-商品对的行为在用户-类别对中的排序 | 反映了user_id对item_category中的各个item_id的行为偏好 | 3 |
uc_b_count_in_n | UC | 用户-类别对在考察日前n天的行为总数计数 | 反映了user_id - item_category的活跃度 | 3 |
uc_bi_count_in_n | UC | 用户-类别对在考察日前n天的各项行为计数 | 反映了user_id -item_category的活跃度,反映了user_id -item_category的各项操作的活跃度,对应着user_id -item_category的购买习惯 | 12 |
uc_bi_last_hours | UC | 用户-类别对各项行为上一次发生距考察日的时差 | 反映了user_id -item_category的活跃时间特征 | 4 |
uc_b_count_rank_in_n_in_u | UC | 用户-类别对的行为在用户所有商品中的排序 | 反映了user_id对item_category的行为偏好 | 3 |
通过sql或python-pandas可以简洁的完成这些特征的提取。
参考程序:python-pandas特征提取。
这些特征数值尺度不一,所以在使用尺度敏感模型前需要进行归一化处理;有些特征是离散型(如排序特征),有的特征存在缺值(如时间差特征),这些都要根据具体的模型来进行预处理。
样本格式
在进行了特征构建之后,我们通过合并各大类特征数据(U、I、C、UI、UC、IC)得出训练和预测所需的数据,数据样本格式如下:
# | 索引 | 特征 | 标签 |
---|---|---|---|
一行样本数据 | user_id, item_id | 约100个特征数据 | 分类结果(0-未购买,1-购买) |
在得出样本集之后,就可以进行模型的训练和预测了。
(p.s.生成的数据量规模达到10G级别,考虑到单机计算存储资源受限,在示例程序大量使用了分块操作,另外也可考虑基于HDFS+MR来实现)。