数据挖掘的最关键环节 | 数据预处理之特征选择、异常值处理、特征构造

34 篇文章 101 订阅 ¥49.90 ¥99.00
本文详细介绍了数据预处理的关键环节,包括特征选择的目的、方法及策略,如filter、wrapper和embedded方法,以及评价规则。同时,讨论了异常值的产生原因、检测方法和处理策略,提供了不同场景下的处理建议。此外,还提及了特征构造的重要性,如信息一致性的判断、字段拆分、加工计算和组合等。
摘要由CSDN通过智能技术生成

百度金融的面试,一面问到了特征选择的相关问题,问我如何做特征选择,前两天又有同事问到,觉得有必要整理一下相关内容。


一、特征选择

特征选择的目的
  • 提高预测准确性
  • 构造效率更高的预测模型
  • 能够对模型有更好的理解和解释
特征选择的方法
  • 过滤式、Filter方法:给每一维的特征赋权重
  • 封装式、wrapper方法:将子集的选择抽象成优化问题,对不同的组合进行比较
  • 嵌入式、Embedded方法:挑选出对模型的训练有重要意义的属性
三种策略
  • 从特征集中找到一个特征子集X,使评价函最大
  • 给定阈值J0,从特征集中找到一个最小子集X,使得J(X)>J0
  • 从特征集中找到一个特征子集X,使评价函数尽量大,子集中的特征尽量少

目标:J(X)尽量大,特征数尽量少

评价规则
1.filter方法
  • 距离度量:欧氏距离
  • 信息增益度量:信
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据AI笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值