机器学习之特征选择

最新推荐文章于 2023-10-12 14:54:28 发布

鼹鼠的胡须

最新推荐文章于 2023-10-12 14:54:28 发布

阅读量1.2k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23968185/article/details/52510992

版权

机器学习专栏收录该内容

22 篇文章 3 订阅

订阅专栏

机器学习过程中，特征选择是避免维数灾难和减低学习难度的有效途径。特征选择的过程，即为选择对当前学习任务有用的属性（相关特征）和去除无用属性（冗余特征）的过程。那么，如何选择有用的特征子集以及如何评价相对好的特征子集是特征选择的关键步骤。

1、子集搜索

如果训练样本有 $n$ 个特征，那么特征子集将有 $2^n$ 种可能性。子集搜索常用的方法有前向搜索方法和后向搜索方法。以下是前向搜索方法的算法：

Forward Search
Input：training set $D$ ，features set；
Output：features subset $F$ ；
start with $F = \varnothing$ ;
Repeat{
$\qquad$ (1)for $i=1,2,\cdots,n$ .Try adding feature $i$ to $F$ .
$\qquad$ evaluate $F\cup$ { $i$ };
$\qquad$ (2)Set $F=F\cup$ {best feature found in (1) }
Output features subset.

以上搜索方式称为前向搜索，在（1）中evaluate的过程我们可以通过交叉验证的方式进行，也可以使用后面提到的子集评价方法直接选择。后向搜索指从完整的特征集开始，每次尝试去掉一个无关特征，以逐渐减少特征的策略进行特征搜索。

2、子集评价

我们通常通过信息增益，信息增益比和基尼指数等指标衡量特征对训练集分类的好坏程度。这里先介绍熵的概念。熵在信息论和统计学中度量随机变量的不确定性。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为

P (X = x i) = p i

$P(X=x_i)=p_i$
其中

i=1,2,⋯,n $i=1,2,\cdots,n$ .则随机变量

X $X$ 的熵定义为：

H (X) = - \sum i = 1 n p i log p i

$H(X)=-\sum_{i=1}^np_i\log p_i$

条件熵：设有随机变量 $(X,Y)$ ，其联合概率分布为

P (X = x i, Y = y i) = p i j

$P(X=x_i,Y=y_i)=p_{ij}$
其中

i=1,2,⋯,n;j=1,2,⋯,m $i=1,2,\cdots,n;j=1,2,\cdots,m$ .条件熵

H(Y|X) $H(Y|X)$ 表示已知随机变量

X $X$ 的条件下随机变量

Y $Y$ 的不确定性。随机变量

X $X$ 给定条件下随机变量

Y $Y$ 的条件熵定义为

X $X$ 给定条件下

Y $Y$ 的条件概率分布的熵对

X $X$ 的数学期望：

H (Y | X) = \sum i = 1 n p i H (Y | X = x i)

$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$
其中，

pi=P(X=xi),i=1,2,⋯,n $p_i=P(X=x_i),i=1,2,\cdots,n$ .

信息增益：表示得知特征 $X$ 的信息而使得 $Y$ 的信息的不确定性减少的程度。特征 $A$ 对训练数据集 $D$ 的信息增益 $g(D,A)$ 定义为集合 $D$ 的经验熵 $H(D)$ 与特征 $A$ 给定条件下 $D$ 的条件熵 $H(D|A)$ 之差，即：

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$
一般地，熵

H(Y) $H(Y)$ 与条件熵

H(Y|X) $H(Y|X)$ 之差称为互信息。

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，为避免这种情况，信息论中引入信息增益比对这一问题进行校正。

信息增益比：特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g(D,A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比，即：

g R (D, A) = g ( D , A ) H A ( D )

$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
其中

HA(D)=−∑ni=1|Di|Dlog2|Di|D $H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{D}\log_2\frac{|D_i|}{D}$ ,

n $n$ 是特征

A $A$ 取值的个数。

基尼指数：分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数定义为

G i n i (p) = \sum k = 1 K p k 1 - p k = 1 - \sum k = 1 K p 2 k

$Gini(p)=\sum_{k=1}^Kp_k{1-p_k}=1-\sum_{k=1}^Kp_k^2$

3、特征选择方法

常用的特征选择方法有过滤式选择（filter）、包裹式选择（wrapper）以及嵌入式选择（embedding），可参见周志华老师的《机器学习》，以上内容我只是为了coding决策树所总结。

鼹鼠的胡须

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。