机器学习之基本定义

1、什么是机器学习?

机器学习是对大量数据进行分析,寻找统计规律,建模,并使用模型对新数据进行预测和分析的学科。

2、为什么要用机器学习?

  • 对于现有解决方案需要大量人工手动执行或者判断规则非常多的时候,使用机器学习可以简化
  • 对于传统技术无法解决的问题,比如语音识别,图像识别等
  • 对于大数据时代产生的大量数据以及产生的复杂的问题
  • 问题的结果受环境波动的影响

3、机器学习的对象、方法、目的、学科相关

  • 机器学习的对象是数据,从数据中学习规律,并用于数据。数据是多样的,包括文本、图像、音视频等。机器学习的前提假设是数据具有一定的统计规律。
  • 机器学习的方法是基于数据构建模型。
  • 机器学习的目的是对于新数据用构建模型进行分析和预测。
  • 机器学习是一门概率论、信息学、统计学、计算理论、最优化理论、计算机科学等多个领域的交叉科学,并在逐渐形成自己的方法论和理论体系。

4、实现机器学习的步骤

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能模型的假设空间,即学习模型的集合(自己判断)。
  3. 确定模型选择的准则
  4. 实现求解最优模型的算法
  5. 通过学习方法选择最优模型
  6. 利用学习到的模型对新数据进行预测和分析

5、机器学习方法的三要素

1、模型

模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

条件分布函数:$$\mathcal{F}=\{P|P(Y \mid X)\}$$

决策函数:$$\mathcal{F}=\{f \mid Y=f(X)\}$$

2、策略

模型的假设空间中包含所有可能的条件概率分布或决策函数,那么我们如何选择最优的那个呢?这就是策略的作用。

  1. 损失函数与风险函数

损失函数是度量模型一次预测的好坏,即预测值与实际值之间的差别,而风险函数则是度量模型平均意义下预测的好坏。

损失函数f(X)与Y的非负实值函数,记作$$L(Y, f(X))$$

  • 0-1损失函数

$$L(Y, f(X))=\left\{\begin{array}{ll} 1, & Y \neq f(X) \\ 0, & Y=f(X) \end{array}\right.$$

  • 平方损失函数

$$L(Y, f(X))=(Y-f(X))^{2}$$

  • 绝对损失函数

$$L(Y, f(X))=|Y-f(X)|$$

  • 对数损失或对数似然损失函数

$$L(Y, P(Y \mid X))=-\log P(Y \mid X)$$

损失函数越小,则模型越优秀。模型的输入输出均为随机变量,且服从联合分布P(X,Y),所以损失函数的期望为

                                                $$\begin{aligned} R_{\exp }(f) &=E_{P}[L(Y, f(X))] \\ &=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x \mathrm{d} y \end{aligned}$$

该期望为理论上模型f(X)在联合分布P(X,Y)下的平均意义下的损失,称为风险函数或期望损失。我们选择模型希望风险函数越小越好。虽然我们假设数据服从联合分布,但我们不知晓联合分布函数,所以我们就要找一个近似值,即经验风险。

给定一个训练数据集,

                                              $$T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$$

模型f(X)关于数据集的平均损失成为经验风险或经验损失,

                                           $$R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$$

根据大数定律可知,当样本容量N趋于无穷大时,经验风险与期望风险的差距很小是必然的,所以可以使用经验风险估计期望风险。

如果样本容量不是足够大时,使用经验风险估计期望风险的效果不是很理想,此时就需要结构风险最小化。

结构风险最小化原则是因为样本容量小而导致过拟合现象,过拟合即是对训练样本预测效果好,但对未知样本预测效果差。

结构风险最小化等价于正则化,即在风险损失函数加上模型的复杂度的正则化项,定义为:

                                         $$R_{\mathrm{srm}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$$

这是基于对过拟合现象的一个处置方法,即简化,其中包括选择较少参数的模型。此时,如果模型越复杂,则复杂度也就越大;相反也是如此。λ>=0是用来权衡经验风险和模型复杂度。

3、算法

从上面我们可以看出机器学习最后的问题都是求解经验风险或结构风险函数的最小值,也就是最优化问题,算法就是用于此处。

求解最优化方法有梯度、牛顿、拉格朗日乘法等。

 

整理资料来自:

《统计学习方法 第二版》 李航

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值