一、缺失值填充
data= data.fillna(dict(zip(dense_columns, len(dense_columns) * [0.0]))).fillna(dict(zip(sparse_columns, len(sparse_columns) * [-1]))).replace('', '-1').replace('nan', '-1').replace('NULL','-1')
PS:fillna处理的NaN也就是存在Hive表中的NULL,后面可以用replace对特定的缺失值"", "NULL","nan"额外做处理;注意数据类型,这里取得例子不太恰当,前面连续值是double,离散值是int,replace处理的是sting
二、连续特征归一化VS标准化
三、离散特征做hash
四、稀疏特征embedding处理
五、序列特征