特征总体分为几个类型
数值型
类别型
时间型
文本型
统计型
组合型
幅度调整/ / 归一化
数值型特征 处理
幅度调整到 [0,1] 范围内:MinMaxScaler()
归一化
统计值 max, min, mean, std
离散化
就是做成区间形式
Hash 分桶
粪桶和离散化类似,离散化是分成区间形式,分桶则是利用kmeans(聚类) 聚成桶在计算
每个类别下对应的变量统计值 histogram( 分布状况 )
数值型 => 类别型(kmeans)
one-hot
把类别用0,1替换
Hash 技巧
Histogram
时间型
既可以看做连续值 , 也可以看做离散值
连续值
a) 持续时间( ( 单页浏览时长 )
b) 间隔时间( ( 上次购买/ / 点击离现在的时间 )
离散值
a) 一天中哪个时间段 (hour_0-23)
b) 一周中星期几( ( week_monday …)
c) 一年中哪个星期
d) 一年中哪个季度
e) 工作日/ / 周末