特征处理

特征总体分为几个类型
数值型
类别型
时间型
文本型
统计型
组合型

 幅度调整/ / 归一化

数值型特征 处理

幅度调整到 [0,1] 范围内:MinMaxScaler()
这里写图片描述

归一化
这里写图片描述

统计值 max, min, mean, std

这里写图片描述

离散化

这里写图片描述
就是做成区间形式

Hash 分桶

粪桶和离散化类似,离散化是分成区间形式,分桶则是利用kmeans(聚类) 聚成桶在计算

这里写图片描述

每个类别下对应的变量统计值 histogram( 分布状况 )

这里写图片描述

数值型 => 类别型(kmeans)

one-hot

这里写图片描述
这里写图片描述
把类别用0,1替换

Hash 技巧

这里写图片描述

Histogram

这里写图片描述

时间型

既可以看做连续值 , 也可以看做离散值

连续值
a) 持续时间( ( 单页浏览时长 )
b) 间隔时间( ( 上次购买/ / 点击离现在的时间 )

离散值
a) 一天中哪个时间段 (hour_0-23)
b) 一周中星期几( ( week_monday …)
c) 一年中哪个星期
d) 一年中哪个季度
e) 工作日/ / 周末
这里写图片描述
这里写图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值