特征选择

贾世林jiashilin

于 2019-08-06 22:26:30 发布

阅读量353

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35290785/article/details/98668637

版权

108 篇文章 9 订阅

订阅专栏

距离度量：如果 X 在不同类别中能产生比 Y 大的差异，那么就说明 X 要好于 Y;
信息度量：主要是计算一个特征的信息增益（度量先验不确定性和期望后验不确定性之间的差异）；
依赖度量：主要用来度量从一个变量的值预测另一个变量值的能力。最常见的是相关系数：用来发现一个特征和一个类别的相关性。如果 X 和类别的相关性高于 Y与类别的相关性，那么X优于Y。对相关系数做一点改变，用来计算两个特征之间的依赖性，值代表着两个特征之间的冗余度。
一致性度量：对于两个样本，如果它们的类别不同，但是特征值是相同的，那么它们是不一致的；否则是一致的。找到与全集具有同样区分能力的最小子集。严重依赖于特定的训练集和最小特征偏见（Min-Feature bias）的用法；找到满足可接受的不一致率（用户指定的参数）的最小规模的特征子集。
误分类率度量：主要用于Wrapper式的评价方法中。使用特定的分类器，利用选择的特征子集来预测测试集的类别，用分类器的准确率来作为指标。这种方法准确率很高，但是计算开销较大。