西瓜书——决策数相关笔记

ECOC——纠错输出码

ECOC工作过程主要分两步

  • 编码:对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生M个训练集,壳训练出M个分类器。
  • 解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码,将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果

类别不平衡问题

m + m^{+} m+表示正例数目, m − m^{-} m表示反例数目,
若 y 1 − y > m + m − 则 预 测 为 正 例 若 \frac{y}{1-y} > \frac{m^{+}}{m^{-}} 则预测为正例 1yy>mm+

信息增益

信息熵

E n t ( D ) = − ∑ k = 1 ∣ Y ∣ p k log ⁡ 2 p k Ent(D) = - \sum_{k=1}^{|\mathcal{Y}|} p_k \log_{2} p_k Ent(D)=k=1Ypklog2pk

E n t ( D ) Ent(D) Ent(D)值越小, D D D的纯度越高。

属性 a a a有V个可能取值, D v D^v Dv表示D中所有在属性 a a a上取值为 a v a^v av的样本,用属性 a a a对样本集 D D D进行划分获得的“信息增益”:
G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a) = Ent(D)-\sum_{v=1}^{V} \frac{|D^v|}{|D|}Ent(D^v) Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)
选择属性 a ∗ = arg ⁡ max ⁡ a ∈ A G a i n ( D , a ) a_*= \arg \max_{a\in A} Gain(D,a) a=argmaxaAGain(D,a)

增益率

增益率定义为:
G a i n r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain_ratio(D,a) = \frac{Gain(D,a)}{IV(a)} Gainratio(D,a)=IV(a)Gain(D,a)
其中
I V ( a ) = − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ log ⁡ 2 ∣ D v ∣ ∣ D ∣ IV(a) = -\sum_{v=1}^{V} \frac{|D^v|}{|D|}\log_2 \frac{|D^v|}{|D|} IV(a)=v=1VDDvlog2DDv
称为属性 a a a的“固有值”。

基尼指数

数据集 D D D的纯度可用基尼值来度量:
G i n i ( D ) = ∑ k = 1 ∣ Y ∣ ∑ k ′ ≠ k p k p k ′ = 1 − ∑ k = 1 ∣ Y ∣ p k 2 \mathrm{Gini}(D) = \sum_{k=1}^{|\mathcal{Y}|}\sum_{k'\neq k}p_kp_{k'}=1-\sum_{k=1}^{|\mathcal Y|} p_k^2 Gini(D)=k=1Yk=kpkpk=1k=1Ypk2
属性 a a a的基尼指数定义为:
G i n i _ i n d e x ( D , a ) = ∑ v = 1 V D v D G i n i ( D v ) \mathrm{Gini\_index}(D,a) = \sum_{v=1}^{V}\frac{D^v}{D}\mathrm{Gini}(D^v) Gini_index(D,a)=v=1VDDvGini(Dv)
选择属性 a ∗ = arg ⁡ max ⁡ a ∈ A G i n i _ i n d e x ( D , a ) a_*=\arg\max_{a\in A} \mathrm{Gini\_index}(D,a) a=argmaxaAGini_index(D,a)

缺失值处理

给定数据集 D D D和属性 a a a,令 D ~ \tilde{D} D~表示 D D D中在属性 a a a上没有缺失值的样本子集。为每个样本 x x x赋予一个权重 w x w_x wx,初始化为1,定义:
ρ = ∑ x ∈ D ~ w x ∑ x ∈ D w x , p ~ k = ∑ x ∈ D ~ k w x ∑ x ∈ D ~ w x ( 1 ≤ k ≤ ∣ Y ∣ ) r ~ v = ∑ x ∈ D ~ v w x ∑ x ∈ D ~ w x ( 1 ≤ v ≤ V ) \rho = \frac{\sum_{x\in \tilde{D} }w_x}{\sum_{x \in D}w_x},\\ \tilde{p}_k = \frac{\sum_{x\in \tilde{D}_k} w_x}{\sum_{x\in \tilde{D}}w_x}\quad(1\leq k \leq |\mathcal{Y}|)\\ \tilde{r}_v = \frac{\sum_{x\in \tilde{D}^v}w_x}{\sum_{x\in \tilde{D}}w_x}\quad(1\leq v\leq V) ρ=xDwxxD~wx,p~k=xD~wxxD~kwx(1kY)r~v=xD~wxxD~vwx(1vV)
将(3)式信息增益推广为:
G a i n ( D , a ) = ρ × G a i n ( D ~ , a ) = ρ × ( E n t ( D ~ ) − ∑ v = 1 V r ~ v E n t D ~ v ) \mathrm{Gain}(D,a) = \rho \times \mathrm{Gain}(\tilde{D},a)\\ = \rho \times \big(\mathrm{Ent}(\tilde{D})-\sum_{v=1}^{V}\tilde{r}_v\mathrm{Ent}{\tilde{D}^v}\big) Gain(D,a)=ρ×Gain(D~,a)=ρ×(Ent(D~)v=1Vr~vEntD~v)
其中
E n t ( D ~ ) = − ∑ k = 1 ∣ Y ∣ p ~ k log ⁡ 2 p ~ k \mathrm{Ent}(\tilde{D}) = -\sum_{k=1}^{|\mathcal{Y}|}\tilde{p}_k\log_2 \tilde{p}_k Ent(D~)=k=1Yp~klog2p~k
缺失值样本权重调整为 r ~ v w x \tilde{r}_vw_x r~vwx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值