提升方法笔记

        提升方法在分类问题中通过改变训练样本的权重,学习多个分类器,并将这些分类器线性组合来提高分类的性能。提升方法需要解决一下两个问题:

  1. 每一轮如何改变训练数据的权值分布
  2. 如何将若分类器组合得到一个强分类器

        对应的解决方法分别是:

  1. 提高前一轮弱分类器错误分类样本的权值,降低那些被正确分类样本的权值
  2. 加权多数表决,加大分类误差率小的若分类求得权值,减小分类误差率大的弱分类器的权值

1. 算法流程

1.1 AdaBoost 算法

输入:二分类样本训练集:

T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \right \}

输出:最终分类器 G(x)

(1)初始化训练数据的权值分布,即每个训练数据集具有均匀的权值分布

D_1=(w_{11},w_{12},...,w_{1N}), \,\, w_{1i}=\frac{1}{N},\,\, i=1,2,...,N

(2)对 m=1,2,...,M

        (a)使用具有权值分布 D_m 的训练数据集学习,得到基本分类器

G_m(x): X\rightarrow \left \{ -1,+1 \right \}

        (b)计算 G_m(x) 在训练数据集上的分类误差率,误差率的值是被 G_m(x) 误分类样本的权值之和。

e_m = \sum_{i=1}^P(G_m(x)\neq y_i)=\sum_{i=1}^Nw_{mi}I(G_m(x_I)\neq y_i)

        (c)计算 G_m(x) 的系数

\alpha_m=\frac{1}{2}ln\frac{1-e_m}{e_m}

可以看出,当 e_m\leqslant \frac{1}{2} 时,\alpha_m\geqslant 0 ,并且随着 e_m 的减小,\alpha_m 在增大。 所以分类误差率越小的基本分类器在最终分类器中的作用越大。

        (d)更新训练数据集的权值分布

D_{m+1}=(w_{m+1,1},...,w_{m+1,N})

w_{m+1,i}=\frac{w_{m,i}}{Z_m}e^{-\alpha_my_iG_m(x_i)},\,\,i=1,2,...,N

其中,Z_m 是规范化因子:

Z_m = \sum_{i=1}^Nw_{m,i}e^{-\alpha_my_iG_m(x_i)}

可以看到,被误分类的样本的权值得以扩大,正确分类样本的权值缩小。 

(3)构建基本分类器的线性组合

f(x)=\sum_{i=1}^M\alpha_mG_m(x)

得到最终分类器

G(x)=sign(f(x))

f(x) 的符号决定实例 x 的类别,绝对值表示分类的确信度。 

2. 训练误差分析

2.1 训练误差界

        AdaBoost 算法最终分类器的训练误差界为:

\frac{1}{N}\sum_{i=1}^NI(G(x_i)\neq y_i)\leqslant \frac{1}{N}\sum_ie^{-y_if(x_i)}=\prod _mZ_m

2.2 二分类问题的训练误差界

\prod _{m=1}^M Z_m=\prod_{m=1}^M\left [ 2\sqrt{e_m(1-e_m)} \right ]=\prod_{m=1}^M\sqrt{1-4\gamma _m^2}

其中

\gamma_m=\frac{1}{2}-e_m

2.3 推论

        如果存在 \gamma>0 ,对所有 m 有 \gamma_m\geqslant \gamma,则

\frac{1}{N}\sum_{i=1}^NI(G(x_i)\neq y_i)\leqslant e^{-2M\gamma ^2}

这表明 AdaBoost 的训练误差是指数下降的。

3. 算法解释

        AdaBoost 算法可以被认为是加法模型,损失函数为指数函数,学习算法为前向分布算法的二分类学习方法。

3.1 前向分步算法

        考虑加法模型

f(x)=\sum_{m=1}^M\beta_mb(x;\gamma_m)

其中,b(x;\gamma_m) 为基函数,\gamma_m 是基函数的参数,\beta_m 是基函数的系数。

        在给定训练数据及损失函数 L(y,f(x)) 的条件下,学习加法模型 f(x) 成为经验风险极小化即损失函数极小化问题:

\underset{\beta_m,\gamma_m}{min}\,\sum_{i=1}^NL(y_i,\sum_{m=1}^M\beta_m b(x_i;\gamma_m))

        前向分步算法求解该问题的想法是:因为学习的是加法模型,如果能从前向后,每一步只学习一个基函数及其系数,逐步逼近优化目标函数式,那就可以简化其复杂度。

        由该想法得,每一步只需要优化如下损失函数:

\underset{\beta, \gamma}{min}\,\sum_{i-1}^NL(y_i,\beta b(x_i;\gamma))

3.1.1 算法流程

输入:训练数据集 T ,损失函数 L(y,f(x)),基函数 b(x;\gamma)

输出:加法模型 f(x)

(1)初始化 f_0(x)=0

(2)对 m = 1,2,..,M

        (a)极小化损失函数得到参数 (\beta_m,\gamma_m)

(\beta_m,\gamma_m)=arg\,\underset{\beta,\gamma}{min}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))

        (b)更新

f_m(x)=f_{m-1}(x)+\beta b(x;\gamma)

(3)得到加法模型

f(x)=f_M(x)=\sum_{m=1}^M\beta_mb(x;\gamma_m)

4. 提升树

        提升树是以分类树或回归树为基本分类器的提升方法,提升树被认为是统计学习中性能最好的方法之一。

4.1 模型

        提升方法实际采用的是加法模型(基函数的线性组合)与前向分步算法。以决策树为基函数的提升方法称作提升树。其表示如下:

f_M(x)=\sum_{i=1}^MT(x;\theta _m)

其中 T(\cdot ) 表示一个决策树 ,\theta_m 表示参数,M 为树的个数

4.2 提升树算法

        针对不同问题的提升树算法,主要区别在于使用的损失函数不同,如用平方误差损失函数来处理回归问题,用指数损失函数处理分类问题,一般损失函数处理一般决策问题。

4.2.1 回归问题的提升树算法

输入:训练数据集 T

输出:提升树 f_M(x)

(1)初始化 f_0(x)=0

(2)对 m = 1,2,...,M

        (a)计算残差

r_{m,i}=y_i-f_{m-1}(x_i)

        (b)拟合残差 r_{m,i} 学习一个回归树得到 T(x;\theta _m)

        (c)更新 f_m(x)=f_{m-1}(x)+T(x;\theta_m)

(3)得到提升回归树 f_M(x)=\sum_{i=1}^MT(x;\theta_m)

4.3 梯度提升

        对一般损失函数而言,每一步的参数优化相对困难,因此提出了梯度提升算法,即最速下降法的近似方法,该方法的关键是利用损失函数的负梯度在当前模型的值:

-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}

将该值作为回归问题提升树算法中的残差近似值,拟合得到一个回归树。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ava实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),可运行高分资源 Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现的毕业设计&&课程设计(包含运行文档+数据库+前后端代码),Java实现
C语言是一种广泛使用的编程语言,它具有高效、灵活、可移植性强等特点,被广泛应用于操作系统、嵌入式系统、数据库、编译器等领域的开发。C语言的基本语法包括变量、数据类型、运算符、控制结构(如if语句、循环语句等)、函数、指针等。下面详细介绍C语言的基本概念和语法。 1. 变量和数据类型 在C语言中,变量用于存储数据,数据类型用于定义变量的类型和范围。C语言支持多种数据类型,包括基本数据类型(如int、float、char等)和复合数据类型(如结构体、联合等)。 2. 运算符 C语言中常用的运算符包括算术运算符(如+、、、/等)、关系运算符(如==、!=、、=、<、<=等)、逻辑运算符(如&&、||、!等)。此外,还有位运算符(如&、|、^等)和指针运算符(如、等)。 3. 控制结构 C语言中常用的控制结构包括if语句、循环语句(如for、while等)和switch语句。通过这些控制结构,可以实现程序的分支、循环和多路选择等功能。 4. 函数 函数是C语言中用于封装代码的单元,可以实现代码的复用和模块化。C语言中定义函数使用关键字“void”或返回值类型(如int、float等),并通过“{”和“}”括起来的代码块来实现函数的功能。 5. 指针 指针是C语言中用于存储变量地址的变量。通过指针,可以实现对内存的间接访问和修改。C语言中定义指针使用星号()符号,指向数组、字符串和结构体等数据结构时,还需要注意数组名和字符串常量的特殊性质。 6. 数组和字符串 数组是C语言中用于存储同类型数据的结构,可以通过索引访问和修改数组中的元素。字符串是C语言中用于存储文本数据的特殊类型,通常以字符串常量的形式出现,用双引号("...")括起来,末尾自动添加'\0'字符。 7. 结构体和联合 结构体和联合是C语言中用于存储不同类型数据的复合数据类型。结构体由多个成员组成,每个成员可以是不同的数据类型;联合由多个变量组成,它们共用同一块内存空间。通过结构体和联合,可以实现数据的封装和抽象。 8. 文件操作 C语言中通过文件操作函数(如fopen、fclose、fread、fwrite等)实现对文件的读写操作。文件操作函数通常返回文件指针,用于表示打开的文件。通过文件指针,可以进行文件的定位、读写等操作。 总之,C语言是一种功能强大、灵活高效的编程语言,广泛应用于各种领域。掌握C语言的基本语法和数据结构,可以为编程学习和实践打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值