机器学习解惑之路


1. 什么是统计学习方法的三要素

  • 模型:由输入X得到输出Y的函数
  • 策略:如何筛选出函数的规则
  • 算法:如何快速求解出上述函数

2. 什么是学习

  • 如果一个系统能够通过执行某个过程改进其自身的性能,该过程就叫学习
  • 对象:系统
  • 目的:改进系统自身性能
  • 方式:执行某个过程

3. 什么是统计学习

  • 统计学习就是关于计算机基于数据构建概率统计模型并运用模型数据进行分析和预测的一门学科。
  • 对象:数据
  • 目的:预测与分析新的数据
  • 核心:构建概率统计模型
  • 前提:同类数据具有一定的统计规律性(由于统计学习是基于概率的,如果同类数据没有统计规律性,即没有一定的概率性,则一定无法构建出概率模型)

4. 统计学习的分类有哪些

  • 监督学习:给定已标记好的输入与输出数据对模型进行训练,并使用训练好的模型对新输入数据进行预测和分析的过程
  • 半监督学习:使用大量未标记的数据及部分已标记的数据进行。
  • 无监督学习:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题的过程。
  • 强化学习:在系统进行运行的过程中,通过不断与外界交互从而不断提高自身性能的过程。

5. 机器学习研究那些问题

机器学习一般流程如下

  • 定位问题:监督学习问题 or 无监督学习问题
  • 提取特征:以监督学习为例,对原始输入数据进行提取,以获取该数据的特征
  • 如何确定模型,例如在监督学习中选择使用SVM 还是 HMM
  • 如何确定策略
  • 如何获取最佳模型
  • 如何评估

6. 什么是独立同分布

  • 独立是概率论中的意义,是指如果有两个事件,事件A与事件B发生互不影响,则说明事件A与B是相互独立的。
  • 同分布也是概率论中的东西,是指两个随机变量X与Y服从同一分布,即通俗地讲是两个变量取到的某值的概率大小一致。
  • 独立同分布一般用于规定测试集与训练集,即保证两个数据集是相互独立同时又同属于一个分布。相互独立保证了两个数据集的取值互不影响,同分布保证了两个数据集具有相同的统计规律性。因此满足了统计学些的前提,则可以使用统计学习来方法来进行研究。

7. 监督学习的分类有哪些

输入变量X输出变量Y
回归连续连续
分类-有限离散
标注序列序列

8. 什么是联合概率分布?

  • 联合概率分布是统计学中的意义,表示几个随机变量间同时发生的概率。个人理解,在统计学习领域中,与其说联合概率分布,不如说条件概率分布,通常,对于输入变量X,与输出变量Y,则在X确认的情况下,Y取某值的也随之确认(理想状态下,即X与Y是相关的),如果x与Y相互独立,个人认为此时是无法使用统计学习来进行分析数据的。因此,X与Y服从P(x,y)的联合概率分布是必要条件,而非X与Y关系的充分条件。

9. 为什么对数损失函数可以衡量损失

个人理解,单独看对数损失函数不易理解,需要放在经验风险函数中进行研究更好理解。如极大似然估计:
极大似然估计的核心思想是小概率时间不易发生,即 P ( Y ∣ X 1 = n 1 , X 2 = n 2 , θ ) P(Y|X_1= n_1,X_2=n_2,\theta) P(YX1=n1,X2=n2,θ)发生是在使该事件发生的最大的 θ \theta θ取值的模型处产生的,因为其他模型发生的概率小,因此不易发生。
为了简化该公式,极大似然估计进行了条件加强:即声明$X_1,X_2是条件独立的,则上式可化为:
P ( Y ∣ X 1 = n 1 , X 2 = n 2 , θ ) = P ( Y ∣ X 1 = n 1 , θ ) P ( Y ∣ X 2 = n 2 , θ ) P(Y|X_1= n_1,X_2=n_2,\theta)=P(Y|X_1= n_1,\theta)P(Y|X_2=n_2,\theta) P(YX1=n1,X2=n2,θ)=P(YX1=n1,θ)P(YX2=n2,θ)

继续简化,对上式取对数:
L ( θ ) = l n P ( Y ∣ X 1 = n 1 , θ ) + l n P ( Y ∣ X 2 = n 2 , θ ) = ∑ i = 1 2 l n P ( Y ∣ X i = n i , θ ) L(\theta)=lnP(Y|X_1= n_1,\theta)+lnP(Y|X_2=n_2,\theta) = \sum_{i=1}^{2}lnP(Y|X_i= n_i,\theta) L(θ)=lnP(YX1=n1,θ)+lnP(YX2=n2,θ)=i=12lnP(YXi=ni,θ)
此处是最大化 L ( θ ) L(\theta) L(θ),为了与其他损失函数保持一致,取负,由求最大值改为求解最小值即可。
上式中, − l n P ( Y ∣ X 2 = n 2 , θ ) -lnP(Y|X_2=n_2,\theta) lnP(YX2=n2,θ) 即是对数损失函数。
因此,当模型是条件概率时,损失函数为 对数损失函数时,经验风险最小化等价于极大似然估计


10. 什么是大数定理

  • 大数定理是概率论中的内容,指如果数据集足够大,则事物出现的频率无限接近于其概率。
  • 由于在现实生活中,联合概率分布不易获取,因此,根据大数定律应使用经验风险函数替代期望风险函数,而经验风险函数即是关于数据下的平均意义下的损失函数。因此,最佳模型就是经验风险最小的模型。

11. 什么是梯度下降法

  • 说到梯度下降法,首先要知道什么是梯度。梯度就是曲线上再某点增长或下降最快的点的速度,因此梯度是有方向的。个人理解,通俗一点,好比下山的时候,如果一个山比较陡,不考虑耗费的体力的情况下,是不是你下山时沿最陡峭处下山所走的路线最短,梯度就是这个陡峭的路。
  • 梯度下降法就是采用梯度这一性质求解最优解的问题。
  • 梯度下降法分为随机梯度下降法和批量梯度下降法,个人理解,随机梯度下降法与批量梯度下降法的区别主要是迭代过程中,选取的样本数,随机梯度下降法在整个训练集中选取样本数较少,而批量梯度下降法则选取较多样本点。因此,随机梯度下降法收敛速度快,但不精确,而批量梯度下降法收敛速度慢,但精度高。

12. 常见的损失函数有哪些

  • 0-1损失函数
    L ( x i , y i ) = { 1 f ( x i ) = y i , i = 0 , 1 , 2 , 3 , . . . 0 f ( x i ) ≠ y i , i = 0 , 1 , 2 , 3 , . . . L(x_{i},y_{i}) = \begin{cases} 1 \quad f(x_{i}) = y_{i} , i=0,1,2,3,... \\ 0 \quad f(x_{i}) \neq y_{i}, i=0,1,2,3,... \end{cases} L(xi,yi)={1f(xi)=yi,i=0,1,2,3,...0f(xi)=yi,i=0,1,2,3,...
  • 平方损失函数
    L ( x i , y i ) = ( f ( x i ) − y i ) 2 i = 0 , 1 , 2 , 3 , . . . L(x_{i},y_{i}) = (f(x_{i}) - y_{i})^2 \quad i=0,1,2,3,... L(xi,yi)=(f(xi)yi)2i=0,1,2,3,...
  • 绝对值损失函数
    L ( x i , y i ) = ∣ f ( x i ) − y i ∣ i = 0 , 1 , 2 , 3 , . . . L(x_{i},y_{i}) = |f(x_{i}) - y_{i}| \quad i=0,1,2,3,... L(xi,yi)=f(xi)yii=0,1,2,3,...
  • 对数损失函数
    L ( x i , y i ) = − l o g ( P ( y i ∣ f ( x i ) ) i = 0 , 1 , 2 , 3 , . . . L(x_{i},y_{i}) = -log(P(y_{i}|f(x_{i})) \quad i=0,1,2,3,... L(xi,yi)=log(P(yif(xi))i=0,1,2,3,...

参考文献

[1]: 《统计学习方法》 李航 清华大学出版社

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值