Python学习记录 特征工程与模型聚合

特征工程与模型聚合

什么是特征工程

特征工程是一项工程活动,它的目的是为了最大限度得从原始数据中提取特征以供算法和模型使用
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限

特征工程的主要任务

从数据中抽取出对结果预测有用且高效的信息

特征工程的意义

更好的特征意味着只需要简单的模型也可以有更好的模型效果,并且还拥有着更强的灵活性

特征的选择

特征选择能剔除不相关或冗余的特征,从而达到减少特征数量,提高模型精确度,从而减少运行时间的目的

特征来源

  • 业务已经整理好的各种特征数据
  • 自己从业务中寻找高级数据特征

选择的目标

  • 寻找最优特征子集

需要特征选择的原因

特征冗余会导致相关度较高,过于消耗计算机资源
部分特征无用或有相反作用的特征容易干扰运行识别的效果

选择的方法

  • filter过滤法
  • wrapper包装法
  • embedding嵌入法

数据与特征的处理

数据采集需要注意的点

  • 数据采集需要考虑数据能否被采集到
  • 需要考虑线上实时计算的时候获取是否快捷
  • 考虑数据对最后结果预测的影响力

数据处理

很多正负样本是不均衡的,大多数模型比对正负样本比较敏感,所以需要数据采样和数据清理

特征处理

  • 数值型
  • 类别型
  • 时间型
  • 文本型
  • 统计型
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三千院喵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值