机器学习之特征工程

特征工程是机器学习中关键的步骤,涉及数据采集、清洗和采样。它包括数值型数据的幅度调整、离散化,类别型数据的one-hot编码,文本型数据的TF-IDF处理,以及特征选择方法如过滤式、包裹式和嵌入式。特征选择旨在减少冗余和噪声,提高模型性能。模型融合如投票器、Bagging、RandomForest、Stacking和Boosting等方法能进一步提升预测准确性。
摘要由CSDN通过智能技术生成

什么是特征工程

特征:从数据中抽取出来对结果预测有用的信息。那么,现在有很多的数据,并不是每一个数据都有用,需要抽取。

特征工程:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程。

数据采集

采集那些对预测结果有帮助的信息。能影响结果的,和结果有关联的,有表面的也有内部的,需要去辨别。

数据清洗

去掉脏数据。这个过程很花时间,但是能帮助你对业务的理解变得透彻。

有哪些角度去看呢?关键是合不合理,reasonable。包括,单维度考量,组合或者统计属性判定,统计方法,补齐可对应的缺省值。

数据采样:

 

  • 分类问题中,正负样本不均衡问题,大部分模型对正负样本不均衡敏感,因为它损失函数是对loss求和,如果不均衡,肯定倾向于更多的那一类。需要随机采样和分层采样。分层采样:先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本。
  • 对于正负样本不均衡问题,若正样本远大于负样本,量很大,对正样本做下采样;若量不大,就要采集更多的数据;过采样,oversampleing(过拟合风险,需要处理数据);修改损失函数。

常见的特征工程

针对数据的类型,有不同的处理方法。

数值型

幅度调整,归一化

 

 

  • 为什么进行调整?每个column(特征)的数值表达的意思不同ÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值