数据挖掘的最关键环节 | 数据预处理之特征选择、异常值处理、特征构造

34 篇文章 100 订阅 ¥49.90 ¥99.00

百度金融的面试,一面问到了特征选择的相关问题,问我如何做特征选择,前两天又有同事问到,觉得有必要整理一下相关内容。


一、特征选择

特征选择的目的
  • 提高预测准确性
  • 构造效率更高的预测模型
  • 能够对模型有更好的理解和解释
特征选择的方法
  • 过滤式、Filter方法:给每一维的特征赋权重
  • 封装式、wrapper方法:将子集的选择抽象成优化问题,对不同的组合进行比较
  • 嵌入式、Embedded方法:挑选出对模型的训练有重要意义的属性
三种策略
  • 从特征集中找到一个特征子集X,使评价函最大
  • 给定阈值J0,从特征集中找到一个最小子集X,使得J(X)>J0
  • 从特征集中找到一个特征子集X,使评价函数尽量大,子集中的特征尽量少

目标:J(X)尽量大,特征数尽量少

评价规则
1.filter方法
  • 距离度量:欧氏距离
  • 信息增益度量:信息增益、互信息
  • 依赖性度量:Pearson相关系数
  • 一致性度量:一般用作预筛选,计算效率高
2.wrapper方法

评价分类性能:准确率高、慢、时间复杂度高、泛化能力差

filter方法

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据AI笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值