[tianchi]移动推荐算法大赛[二]

最新推荐文章于 2018-07-20 15:29:17 发布

xuweiling_

最新推荐文章于 2018-07-20 15:29:17 发布

阅读量375

点赞数

分类专栏： Python数据分析与挖掘数据挖掘 tianchi

本文链接：https://blog.csdn.net/u014630431/article/details/80560604

版权

本文详述了在移动推荐算法大赛中，如何通过特征工程提升预测效果。作者分析了用户行为随时间减弱的影响，选取距考察日一周内的数据，并依据user、item、item_category构建U、I、C类特征，以及UI、UC、IC组合特征，以解决U-I购买行为的分类问题。文章介绍了特征构建的六大类和方法，旨在优化模型的预测能力。

摘要由CSDN通过智能技术生成

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。

想了解更多特征工程的相关知识看这里->特征工程到底是什么？
这里写图片描述

上一篇文章中只是根据前一天的交互行为，预测第二天的购买行为，最终的f1得分为4.6%，精确度有待提升。
为了提高预测效率，本文基于历史数据进行特征构建，特征构建时的一些思路如下：
1）由于用户行为对购买的影响随时间减弱，根据分析，用户在一周之前的行为对考察日是否购买的影响已经很小，故而只考虑距考察日一周以内的特征数据。

2）由于数据来源于垂直电商，其特点是线上购买线下消费，猜测其购买行为具有一定的周期性，进一步猜测行为周期为一个星期。待预测目标考察日为 12.19 ，是星期五，所以分割出11.18~12.18数据中的四段以星期五为考察日，一周为考察期的数据，一共有4组，其中一组涉及双十二异常期，故而省区，还剩下三组数据如下：

part 1 - train: 11.22~11.27 -> 11.28;
part 2 - train: 11.29~12.04 -> 12.05;
part 3 - pred: 12.13~12.18 (-> 12.19);

其中 part 1 和 part 2 可作为模型训练和验证数据集，part 3 为测试数据集；

3）针对当前业务背景，考虑从user、item、item_category三大基本维度及其组合入手进行特征构建，简称U、I、C。

4）由于问题已被明确为 U-I 是否发生购买行为（标记label取｛0，1]）的分类问题，最终的特征数据均要合并到生成以 U-I 为index（key）的样本集上来。进一步地，如要考虑所有可能的 U-I ，必将面临组合爆炸的问题，所以这里只关注在距考察日一周以内出现过的 U-I 。

这里将所需构建的特征分为六大类：U、I、C、UI、UC、IC，对每类分别结合行为次数、时间、排序等视角设计特征。考虑到样本规模，特征数量不宜太少，这里我们设计了约100个特征来进行第一季的数据任务，具体的特征选择及定义见下表：

特征名称	所属类别	特征含义	特征作用	特征数量
u_b_count_in_n（n=1/3/6）	U	用户在考察日前n天的行为总数计数	反映了user_id的活跃度（不同时间粒度：最近1天/3天/6天）	3
u_bi_count_in_n（i=1/2/3/4,n=1/3/6）	U	用户在考察日前n天的各项行为计数	反映了user_id的活跃度（不同时间粒度），反映了user_id的各项操作的活跃度，折射出user_id的购买习惯	12
u_b4_rate	U	用户的点击购买转化率	反映了用户的购买决策操作习惯	1
u_b4_diff_hours	U	用户的点击购买平均时差	反映了用户的购买决策时间习惯	1
i_u_count_in_n	I	商品在考察日前n天的用户总数计数	反映了item_id的热度（用户覆盖性）	3
i_b_count_in_n	I	商品在考察日前n天的行为总数计数	反映了item_id的热度（用户停留性）	3
i_bi_count_in_n	I	商品在考察日前n天的各项行为计数	反映了item_id的热度（用户操作吸引），折射出item_id产生的购买习惯特点	12
i_b4_rate	I	商品的点击购买转化率	反映了商品的购买决策操作特点	1
i_b4_diff_hours	I	商品的点击购买平均时差	反映了商品的购买决策时间特点	1
c_u_count_in_n	C	类别在考察日前n天的用户总数计数	反映了item_category的热度（用户覆盖性）	3
c_b_count_in_n	C	类别在考察日前n天的行为总数计数	反映了item_category的热度（用户停留性）	3
c_bi_count_in_n	C	类别在考察日前n天的各项行为计数	反映了item_category的热度（用户操作吸引），包含着item_category产生的购买习惯特点	12
c_b4_rate	C	类别的点击购买转化率	反映了item_category的购买决策操作特点	1
c_b4_diff_hours	C	类别的点击购买平均时差	反映了item_category的购买决策时间特点	1
ic_u_rank_in_c	IC	商品在所属类别中的用户人数排序	反映了item_id在item_category中的热度排名（用户覆盖性）	1
ic_b_rank_in_c	IC	商品在所属类别中的行为总数排序	反映了item_id在item_category中的热度排名（用户停留性）	1
ic_b4_rank_in_c	IC	商品在所属类别中的销量排序	反映了item_id在item_category中的热度排名（销量）	1
ui_b_count_in_n	UI	用户-商品对在考察日前n天的行为总数计数	反映了user_id - item_id的活跃度	3
ui_bi_count_in_n	UI	用户-商品对在考察日前n天的各项行为计数	反映了user_id - item_id的活跃度，反映了user_id - item_id的各项操作的活跃度，对应着user_id - item_id的购买习惯	12
ui_bi_last_hours	UI	用户-商品对各项行为上一次发生距考察日的时差	反映了user_id - item_id的活跃时间特征	4
ui_b_count_rank_in_n_in_u	UI	用户商品对的行为在用户所有商品中的排序	反映了user_id对item_id的行为偏好	3
ui_b_count_rank_in_n_in_uc	UI-UC	用户-商品对的行为在用户-类别对中的排序	反映了user_id对item_category中的各个item_id的行为偏好	3
uc_b_count_in_n	UC	用户-类别对在考察日前n天的行为总数计数	反映了user_id - item_category的活跃度	3
uc_bi_count_in_n	UC	用户-类别对在考察日前n天的各项行为计数	反映了user_id -item_category的活跃度，反映了user_id -item_category的各项操作的活跃度，对应着user_id -item_category的购买习惯	12
uc_bi_last_hours	UC	用户-类别对各项行为上一次发生距考察日的时差	反映了user_id -item_category的活跃时间特征	4
uc_b_count_rank_in_n_in_u	UC	用户-类别对的行为在用户所有商品中的排序	反映了user_id对item_category的行为偏好	3

1、数据基本处理

import pandas as pd
import numpy as np

user_behavior_file = '../fresh_comp_offline/tianchi_fresh_comp_train_user.csv'
item_file = '../fresh_comp_offline/tianchi_fresh_comp_train_item.csv'

#step1:查看、处理user表格
userAll = pd.read_csv(user_behavior_file, usecols=['user_id','item_id','behavior_type','time'], encoding='utf-8')
# print(userAll.head())
# print(userAll.info())
# print(userAll.duplicated().sum())   #11505107

#step2:查看、处理item子集表格
itemSub = pd.read_csv(item_file, usecols=['item_id', 'item_category'], encoding='utf-8')
# print(itemSub.item_id.is_unique)  #False
# print(itemSub.item_id.value_counts().head())
# print(itemSub.info())
itemSet = itemSub[['item_id', 'item_category']].drop_duplicates()
# print(itemSet.info())

#step3:取user与item子集的交集
userSub = pd.merge(userAll, itemSet, how='inner') #on 用于连接的列名，必须同时存在于左右两个DataFrame对象中，如果未指定，则以left和right列名的交集作为连接键
userSub.to_csv('./way3Data/user_item_category.csv', index=False, encoding='utf-8')
# print(userSub.info()) #Int64Index: 2084859 entries, 0 to 2084858  memory usage: 95.4+ MB
# print(userSub.head())

#step4:处理时间数据
userSub = pd.read_csv('./way3Data/user_item_category.csv', usecols=['user_id','item_id', 'item_category', 'behavior_type', 'time'], encoding='utf-8', parse_dates=True)
# print(userSub.info())
# print(userSub.head())
userSub['time_day'] = pd.to_datetime(userSub.time.values).date
userSub['time_hour'] = pd.to_datetime(userSub.time.values).time
# print(userSub.info())
userSub.drop('time', axis=1, inplace=True)
# print(userSub.info())
# print(userSub.head())
userSub.to_csv('./way3Data/user_item_category_datetime.csv', index=False, encoding='utf-8')#将datetime列拆开并保存

#step5:将交互行为进行哑变量编码
typeDummies = pd.get_dummies(userSub['behavior_type'], prefix='type')  #onehot哑变量编码
userSub = pd.concat([userSub, typeDummies], axis=1)#将哑变量特征加入到表中
# print(userSub.info())
# print(userSub.head())
userSub.drop('behavior_type', axis=1, inplace=True)
userSub = userSub[['user_id', 'item_id', 'item_category', 'type_1', 'type_2', 'type_3', 'type_4', 'time_day', 'time_hour']]#调整dataframe列顺序
# print(userSub.info())
# print(userSub.head())
userSub.to_csv('./way3Data/user_item_datetime_type.csv', index=False, encoding='utf-8')#将behavior列进行哑变量编码处理并保存

2、处理数据并进行U类（user）类特征构建

import pandas as pd

#基于user_id、item_id、category三大基本维度进行特征构建，
# 这里将所需构建的特征分为六大类：U、I、C、UI、UC、IC

#step1:读取要用到的数据
userAll = pd.read_csv('./way3Data/user_item_datetime_type.csv', encoding='utf-8')
# print(userAll.info())
# print(userAll.head())

#step2:构建U类特征
#①u_b_count_in_n(n=1/3/6; 用户在考察日前n天的行为总量计数，考察日取2014-12-17)
userSub = userAll[userAll['time_day'] == '2014-12-16']
userSub = userSub[['user_id', 'item_id', 'item_category', 'type_1', 'type_2', 'type_3', 'type_4']]
userSub = userSub.groupby(['user_id', 'item_id', 'item_category'], as_index=False).sum()
userSub['u_b_count_in_1'] = userSub['type_1']+userSub['type_2']+userSub['type_3']+userSub['type_4']
userSub.drop(['type_1', 'type_2', 'type_3', 'type_4'], axis=1, inplace=True)
# print(userSub.info())
# print("最大值：", userSub['behavior'].max())   #20
u_b_count_in_1 = userSub.copy()
# print(u_b_count_in_1.info())
# print(u_b_count_in_1.head())
# usertmp = userSub[['user_id', 'item_id', 'item_category']]
# print(usertmp.duplicated().sum())# 重复行为0

userSub = userAll[(userAll['time_day'] > '2014-12-13') & (userAll['time_day'] < '2014-12-17')]
userSub = userSub[['user_id', 'item_id', 'item_category', 'type_1', 'type_2', 'type_3', 'type_4']]
userSub = userSub.groupby(['user_id', 'item_id', 'item_category'], as_index=False).sum()
userSub['u_b_count_in_3'] = userSub['type_1']+userSub['type_2']+userSub['type_3']+userSub['type_4']
userSub.drop(['type_1', 'type_2', 'type_3', 'type_4'], axis=1, inplace=True)
u_b_count_in_3 = userSub.copy()
# print(u_b_count_in_3.info())
# print(u_b_count_in_3.head())

userSub = userAll[(userAll['time_day'] > '2014-12-10') & (userAll['time_day'] < '2014-12-17')]
userSub = userSub[['user_id', 'item_id', 'item_category', 'type_1', 'type_2', 'type_3', 'type_4']]
userSub = userSub.groupby(['user_id', 'item_id', 'item_category'], as_index=False).sum()
userSub['u_b_count_in_6'] = userSub['type_1']+userSub['type_2']+userSub['type_3']+userSub['type_4']
userSub.drop(['type_1', 'type_2', 'type_3', 'type_4'], axis=1, inplace=True)
u_b_count_in_6 = userSub.copy()
# print(u_b_count_in_6.info())
# print(u_b_count_in_6.head())

u_b_count_in_n = pd.merge(u_b_count_in_6, u_b_count_in_3, on=['user_id', 'item_id', 'item_category'], how='left').fillna(0.0)
u_b_count_in_n = pd.merge(u_b_count_in_n, u_b_count_in_1, on=['user_id', 'item_id', 'item_category'], how='left').fillna(0.0)
# print(u_b_count_in_n.info())
# print(u_b_count_in_n.head())
u_b_count_in_n.to_csv('./way3Data/u_b_count_in_n.csv', index=False, encoding='utf-8')

#②u_bi_count_in_n(n=1/3/6;i=1/2/3/4; 用户在考察日前n天的各类行为总量计数，考察日取2014-12-17)
userSub = userAll[userAll['time_day'] == '2014-12-16']
userSub = userSub[['user_id', 'item_id', 'item_category', 'type_1', 'type_2', 'type_3', 'type_4']]
userSub = userSub.groupby(['user_id', 'item_id', 'item_category'], as_index=False).sum()
userSub['u_b1_count_in_1'] = userSub['type_1']   #用户在考察日前1天的浏览（1）行为总量计数
userSub['u_b2_count_in_1'] = userSub['type_2']   #用户在考察日前1天的收藏（2）行为总量计数
userSub['u_b3_count_in_1'] = userSub['type_3']   #用户在考察日前1天的加购物车（3）行为总量计数
userSub['u_b4_count_in_1'] = userSub['type_4']   #用户在考察日前1天的购买（4）行为总量计数
userSub.drop(['type_1'], axis=1, inplace=True)
userSub.drop(['type_2'], axis=1, inplace=True)
userSub.drop(['type_3'], axis=1, inplace=True)
userSub.drop(['type_4'], axis=1, inplace=True)
u_bi_count_in_1 = userSub.copy()
# print(u_bi_count_in_1.info())
# print(u_bi_count_in_1.u_b1_count_in_3.max())

userSub = userAll[(userAll['time_day'] > '2014-12-13') & (userAll['time_day'] < '2014-12-17')]
userSub = userSub[['user_id', 'item_id', 'item_category', 'type_1', 'type_2', 'type_3', 'type_4']]
userSub = userSub.groupby(['user_id', 'item_id', 'item_category'], as_index=False).sum()
userSub['u_b1_count_in_3'] = userSub['type_1']   #用户在考察日前3天的浏览（1）行为总量计数
userSub['u_b2_count_in_3'] = userSub['type_2']
userSub['u_b3_count_in_3'] = userSub['type_3']
userSub['u_b4_count_in_3'] = userSub['type_4']
userSub.drop(['type_1'], axis=1, inplace=True)
userSub.drop(['type_2'], axis=1, inplace=True)
userSub.drop(['type_3'], axis=1, inplace=True)
userSub.drop(['type_4'], axis=1, inplace=True)
u_bi_count_in_3 = userSub.copy()
# print(u_bi_count_in_3.info())
# print(u_bi_count_in_3.u_b3_count_in_3.max())

userSub = userAll[(userAll['time_day'] > '2014-12-10') & (userAll['time_day'] < '2014-12-17')]
userSub = userSub[['user_id', 'item_id', 'item_category', 'type_1', 'type_2', 'type_3', 'type_4']]
userSub = userSub.groupby(['user_id', 'item_id', 'item_category'], as_index=False).sum()
userSub['u_b1_count_in_6'] = userSub['type_1']   #用户在考察日前6天的浏览（1）行为总量计数
userSub['u_b2_count_in_6'] = userSub['type_2']
userSub['u_b3_count_in_6'] = userSub['type_3']
userSub['u_b4_count_in_6'] = userSub['type_4']
userSub.drop(['type_1'], axis=1, inplace=True)
userSub.drop(['type_2'], axis=1, inplace=True)
userSub.drop(['type_3'], axis=1, inplace=True)
userSub.drop(['type_4'], axis=1, inplace=True)
u_bi_count_in_6 = userSub.copy()
# print(u_bi_count_in_6.info())
# print(u_bi_count_in_6.u_b2_count_in_6.max())

u_bi_count_in_n = pd.merge(u_bi_count_in_6, u_bi_count_in_3, on=['user_id', 'item_id', 'item_category'], how='left').fillna(0.0)
u_bi_count_in_n = pd.merge(u_bi_count_in_n, u_bi_count_in_1, on=['user_id', 'item_id', 'item_category'], how='left').fillna(0.0)
# print(u_bi_count_in_n.info())
# print(u_bi_count_in_n.u_b4_count_in_6.max())
u_bi_count_in_n.to_csv('./way3Data/u_bi_count_in_n.csv', index=False, encoding='utf-8')

#③u_b4_rate(用户的点击购买转化率，反映了用户的购买决策操作习惯)（此处使用大转化，不是分层转化，分层转化主要为了找出用户流失环节进而改进）
userSub = userAll[userAll['time_day'] == '2014-12-16']
userSub = userSub[['user_id', 'item_id', 'item_category', 'type_1', 'type_2', 'type_3', 'type_4']]
userSub = userSub.groupby(['user_id', 'item_id', 'item_category'], as_index=False).sum()
# usertmp = userSub[['user_id', 'item_id', 'item_category']]
# print(usertmp.duplicated().sum())
userSub['u_b4_rate'] = userSub['type_4']/(userSub['type_1']+userSub['type_2']+userSub['type_3']+userSub['type_4']).map(lambda x:x+1 if

最低0.47元/天解锁文章

xuweiling_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
[tianchi]移动推荐算法大赛[二]

特征工程到底是什么？有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。上一篇文章中只是用原始数据抽出最简单的特征，使用最简单的特征来构建模型，最终的预测效果不是特别理想，因此基于user_id、item_id、category三大基...
复制链接

扫一扫

专栏目录