企业级机器学习 Pipline - 特征feature处理 - part 1

企业级机器学习 Pipline - 特征feature处理 - part 1


文章源码下载地址:点我下载http://inf.zhihang.info/resources/pay/7692.html

part 0, 往期回顾

log数据处理 : 处理原始hive表或hdfs上log日志数据
sample特征处理 :样本打标签、样本清洗、采样以及CXR校准。

在上文 样本sample特征 处理的逻辑中,我们选取了能唯一标识一次流量的若干字段,例如:用户硬件唯一性id是 imei 、当前用户行为触发id是 triggerId 、当前广告位置标记 posid 、当前用户作用的对象id是 adid 、是否有点击标志的 label 字段以及Log行为发生的时间戳字段 timestamp上面这些字段在下游处理特征时都非常重要

以上字段大概就是记录一个用户(imei)在某个时刻(timestamp)在某个广告位置(posid)上触发(triggerid)的某条广告(adid)的某次行为知否发生转化(label)。


part 1, 本期正文

书接上文,我们分别介绍了企业级机器学习 Pipline之 log 数据处理 、 样本sample 处理,按照这里文章组织的结构,下面我们开始介绍 特征feature处理

特征feature处理 相比于 样本sample处理 的区别在于: 样本唯一性的标识一次行为状态,为特征feature处理准备了必要的字段,在样本阶段决定了模型训练所使用的 sample条数 , 正负样本比例 以及 用户分布 ,下游流程均不会改变这些。

所谓 特征feature处理 就是拿到更多的广告侧(ad)、用户侧(user)、流量以及上下文侧(context)数据,简称为(AUC)三方数据,丰富模型能够使用到的各个方面的特征数据以及组织形式。

一般拿到一份数据,我们都会会去 观察这份数据 各个字段的 取值形式 、统计以下各个字段的 覆盖率 ,对数据做一些 宏观 上的 统计与处理 在进行使用。

如果是 id类 特征,可以把当作 sparse 类型进行处理,甚至 文字型、类别型 特征 都把作为离散特征处理。

如果是 连续特征 ,一般把进行分桶离散化之后加入到模型取得embeding等。也有类似于 gbdt+lr 这种方式,把连续特征用树模型进行离散化后和别的模型联合使用,在工业界也取得了很好的线上效果。当然也有把连续特征直接丢到 dense 模型里作为一个维度的,但是我做的一些实验效果都一般,进行了一波负优化。

字段的覆盖率对特征影响是至关重要的,一般在70%以上才会有较多的正向效果。当然也有另类,像是实时特征,短期内有行为的用户量特别少,但是效果仍然特别明显。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值