理论和代码:https://www.jianshu.com/p/71d819005fed
一、DeepFM数据集的构造。给定的原始数据集为: [458044 rows x 39 columns]
将其转换为DeepFM输入层要求的格式: feature_index feature_value
1、对于连续型数据,每一列作为一个索引值,对应的值为原始值。对于类别数据每个类别作为一个索引值,对应的值赋值为1。
C39 为连续型特征,index=60 代表这一列;假设c10为两个类别的特征,其中 index=10代表一个特征,index=11代表另一个特征。
feature_index 格式如下:
feature_value 格式如下:
分类变量的值全部赋值为了1,原因: