Bagging

最新推荐文章于 2024-09-23 14:10:11 发布

kb_pycittate

最新推荐文章于 2024-09-23 14:10:11 发布

阅读量322

点赞数

分类专栏：统计学习导论

本文链接：https://blog.csdn.net/weixin_40360666/article/details/78369584

版权

统计学习导论专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Resampling

we refit the model with repeatedly samples from a training set
- cross validation
- bootstrapping
1. 交叉验证
假定有一个变量集合上能得到最小错误率，如果是一个很大的集合，我们随机划分为训练集和测试集（验证集），找到用某种训练集训练出的在测试集上最低错误率的模型
LOOCV：对交叉验证的错误率做平均， $CV_{(n)}=1/n \sum_{i=1}^{n} MSE$

LOOCV	the validation set
less bias	simple
less variable MSE	easy to implent

K-fole Cross Validatin

entropy for feature selection

信息熵
高熵即混乱而更难预测
条件熵
信息增益：IG, information gain, 作为互信息
$H(Y)-H(Y|X)$

H (Y) = - \sum y \in Y p (y) l o g p (y)

$H(Y)=-\sum_{y\in \mathbf Y} p(y)log p(y)$

H (Y | X) = - \sum x \in X p (x) \sum y \in Y p (y | x) l o g p (y | x)

$H(Y|X) = - \sum_{x\in \mathbf X}p(x) \sum_{y\in \mathbf Y} p(y|x)log p(y|x)$

更低的条件熵（更高的信息增益）即选为最佳特征，

岭回归

消减维数，取折中，

Decision trees

决策树
- 回归树
- 分类树
- pruning trees 剪枝
- trees vs. Linear Models

决策树的构造过程其实就是评估所有子特征，根据特特征的重要性来进行分类的方法
首先需要评估各个特征的信息熵——决定性作用最大的那个特征作为根节点
>

1、给定下列数据集，其中每个样本有两个属性，记为属性A和属性B，这些样本分为三类，分别记作 C1, C2, 和C3。计算A和B的信息增益值（IG），并基于计算的结果，给出决策树判断的流程。

类别	属性A	属性B
C3	1	2
C3	1	1
C1	1	2
C1	1	2
C1	2	2
C2	2	1
C2	3	1
C2	3	1
C2	3	1
C2	3	2

Answer:
1. the IG for A :

$x\in X$	1	2	3
$y\in Y$	2C1 0C2 2C3	1C1 1C2 0C3	0C1 4C2 0C3

the IG for B

$x\in X$	1	2	3
$y\in Y$	0C1 4C2 1C3	3C1 1C2 1C3	0C1 0C2 0C3

H (Y | X) = - \sum x \in X p (x) \sum y \in Y p (y | x) l o g p (y | x)

$H(Y|X) = - \sum_{x\in \mathbf X}p(x) \sum_{y\in \mathbf Y} p(y|x)log p(y|x)$

$p_A(x=1)=4/(4+2+4)=0.4$
$p_A(x=2)=0,2$
$p_A(x=3)=0.4$

$p_B(x=1)=5/10=0.5$
$p_B(x=2)=0.5$
$p_B(x=3)=0$

$p_A(y=c1|x=1)=2/(2+2)=0.5$
$p_A(y=c2|x=1)=0$
$p_A(y=c3|x=1)=0.5$

$p_A(y=c1|x=2)=0.5$
$p_A(y=c2|x=2)=0.5$
$p_A(y=c3|x=2)=0$

$p_A(y=c1|x=3)=0$
$p_A(y=c2|x=3)=1$
$p_A(y=c3|x=3)=0$

IG_A= -0.4(0.5log0.5+0.5log0.5)-0.2(0.5log0.5+0.5log0.5)-0.4(1log1)=0.6log2=0.18
IG_B=
-0.5(0.8log0.8+0.2log0.2)-0.5(0.6log0.6+0.2log0.2+0.2log0,2)=0.315
显然A属性对分类来说更好，基于运算结果，会给出决策树的流程：
A的可信度更高，因此从A开始划分，
if(A<=1)
if(B<=1)
C3
else if(B<=2)
C1(p(C1|B)>p(C2|B)
else if (A<=2)
if(B<=1)
C2
else if(B<=2)
C1
else if(A<=3)
C2
end