机器学习之特征选择

最新推荐文章于 2023-10-12 14:54:28 发布

鼹鼠的胡须

最新推荐文章于 2023-10-12 14:54:28 发布

阅读量1.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_23968185/article/details/52510992

版权

机器学习专栏收录该内容

22 篇文章 3 订阅

订阅专栏

机器学习过程中，特征选择是避免维数灾难和减低学习难度的有效途径。特征选择的过程，即为选择对当前学习任务有用的属性（相关特征）和去除无用属性（冗余特征）的过程。那么，如何选择有用的特征子集以及如何评价相对好的特征子集是特征选择的关键步骤。

1、子集搜索

如果训练样本有 $n$ 个特征，那么特征子集将有 $2^n$ 种可能性。子集搜索常用的方法有前向搜索方法和后向搜索方法。以下是前向搜索方法的算法：

Forward Search
Input：training set $D$ ，features set；
Output：features subset $F$ ；
start with $F = \varnothing$ ;
Repeat{
$\qquad$ (1)for $i=1,2,\cdots,n$ .Try adding feature $i$ to $F$ .
$\qquad$ evaluate $F\cup$ { $i$ };
$\qquad$ (2)Set $F=F\cup$ {best feature found in (1) }
Output features subset.

以上搜索方式称为前向搜索，在（1）中evaluate的过程我们可以通过交叉验证的方式进行，也可以使用后面提到的子集评价方法直接选择。后向搜索指从完整的特征集开始，每次尝试去掉一个无关特征，以逐渐减少特征的策略进行特征搜索。

2、子集评价

我们通常通过信息增益，信息增益比和基尼指数等指标衡量特征对训练集分类的好坏程度。这里先介绍熵的概念。熵在信息论和统计学中度量随机变量的不确定性。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为

P (X = x i) = p i

$P(X=x_i)=p_i$
其中

i=1,2,⋯,n $i=1,2,\cdots,n$ .则随机变量

X $X$ 的熵定义为：

H (X) = - \sum i = 1 n p i log p i

$H(X)=-\sum_{i=1}^np_i\log p_i$

条件熵：设有随机变量 $(X,Y)$ ，其联合概率分布为

P (X = x i, Y = y i) = p i j

$P(X=x_i,Y=y_i)=p_{ij}$
其中

i=1,2,⋯,n;j=1,2,⋯,m $i=1,2,\cdots,n;j=1,2,\cdots,m$ .条件熵

H(Y|X) $H(Y|X)$ 表示已知随机变量

X $X$ 的条件下随机变量

Y $Y$ 的不确定性。随机变量

X $X$ 给定条件下随机变量

Y $Y$ 的条件熵定义为

X $X$ 给定条件下

Y $Y$ 的条件概率分布的熵对

X $X$ 的数学期望：

H (Y | X) = \sum i = 1 n p i H (Y | X = x i)

$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$
其中，

pi=P(X=xi),i=1,2,⋯,n $p_i=P(X=x_i),i=1,2,\cdots,n$ .

信息增益：表示得知特征 $X$ 的信息而使得 $Y$ 的信息的不确定性减少的程度。特征 $A$ 对训练数据集 $D$ 的信息增益 $g(D,A)$ 定义为集合 $D$ 的经验熵 $H(D)$ 与特征 $A$ 给定条件下 $D$ 的条件熵 $H(D|A)$ 之差，即：

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$
一般地，熵

H(Y) $H(Y)$ 与条件熵

H(Y|X) $H(Y|X)$ 之差称为互信息。

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，为避免这种情况，信息论中引入信息增益比对这一问题进行校正。

信息增益比：特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g(D,A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比，即：

g R (D, A) = g ( D , A ) H A ( D )

$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
其中

HA(D)=−∑ni=1|Di|Dlog2|Di|D $H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{D}\log_2\frac{|D_i|}{D}$ ,

n $n$ 是特征

A $A$ 取值的个数。

基尼指数：分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数定义为

G i n i (p) = \sum k = 1 K p k 1 - p k = 1 - \sum k = 1 K p 2 k

$Gini(p)=\sum_{k=1}^Kp_k{1-p_k}=1-\sum_{k=1}^Kp_k^2$

3、特征选择方法

常用的特征选择方法有过滤式选择（filter）、包裹式选择（wrapper）以及嵌入式选择（embedding），可参见周志华老师的《机器学习》，以上内容我只是为了coding决策树所总结。

鼹鼠的胡须

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之特征选择

机器学习过程中，特征选择是避免维数灾难和减低学习难度的有效途径。特征选择的过程，即为选择对当前学习任务有用的属性（相关特征）和去除无用属性（冗余特征）的过程。那么，如何选择有用的特征子集以及如何评价相对好的特征子集是特征选择的关键步骤。
复制链接

扫一扫