统计学习方法 李航 阅读笔记 (一)

代价函数,损失函数,风险函数,目标函数

  • 损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。
  • 代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。一般不区分损失函数和代价函数。
  1. 如果 y 是离散型变量 (对应着提升分类树 y 和 sign(h) 取 -1 和 1)
    0-1 损失函数 (misclassification)指数损失函数 (adaBoost)对数损失函数 (logitBoost)支持向量损失函数 (support vector)
  2. 如果 y 是连续性变量 (对应着提升回归树 y 和 h 取任意实数)
    L2 损失函数 (regression boost)L1 损失函数Huber 损失函数
    L1和L2损失函数
  • 风险函数(Risk Function) 关于联合概率的平均意义下的损失。即联合分布P(X,Y) 损失函数的期望风险函数
  • 风险函数最小时函数拟合最好,但是联合概率未知。所以改为使经验风险+结构风险的和最小,也就是目标函数最小。
  • 经验风险:模型 f(x) 关于训练集数据的平均损失在这里插入图片描述
  • 结构风险:表示模型复杂度的正则化项或惩罚项。表示为J(f) 。结构风险最小化是为了防止过拟合
  • 当样本容量趋于无穷大的时候,经验风险趋于风险函数
  • 目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。
  • 当样本容量足够大的时候,经验风险最小化能保证有很好的学习效果,但样本数量小的时候,就会产生“过拟合”现象。因为参数太多,会导致我们的模型复杂度上升,容易过拟合(训练误差会很小),但训练误差小不是我们的终极目标,我们的目标也是测试误差也小,所以我们要保证模型最简单的基础下最小化训练误差;模型复杂度可以通过正则函数来实现(约束我们的模型特征),强行的让模型稀疏,低秩,平滑等。
    在这里插入图片描述
  • 代价函数可能使梯度下降最终结果只得到局部最优解https://blog.csdn.net/chenguolinblog/article/details/52305257)
  • 代价函数 假设有训练样本(x, y),模型为h,参数为θ。h(θ) = θTx
  1. 对于每种算法来说,代价函数不是唯一的;
  2. 代价函数是参数θ的函数;
  3. 总的代价函数J(θ)可以用来评价模型的好坏,代价函数越小说明模型和参数越符合训练样本(x, y);
  4. J(θ)是一个标量;
  5. 选择代价函数时,最好挑选对参数θ可微的函数(全微分存在,偏导数一定存在)

统计学习方法三要素

统计学习方法三要素:模型,策略,算法.

  • 统计学习方法步骤
  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间, 即学习模型的集合.
  3. 确定模型选择的准则, 即学习的策略
  4. 实现求解最优模型的算法, 即学习的算法
  5. 通过学习方法选择最优的模型
  6. 利用学习的最优模型对新数据进行预测或分析.
  • 模型:所要学习的条件概率分布或者决策函数

生成模型与判别模型

监督学习方法可分为生成方法(generative approach)与判别方法(discriminative approach)

  • 判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知级,决策树,支持向量机等。

  • 生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),再利用它进行分类
    https://blog.csdn.net/zouxy09/article/details/8195017

  • 优缺点

     生成方法的特点:上面说到,生成方法学习联合概率密度分布P(X,Y),所以就可以从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度。但它不关心到底划分各类的那个分类边界在哪。生成方法可以还原出联合概率分布P(Y|X),而判别方法不能。生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型,当存在隐变量时,仍可以用生成方法学习。此时判别方法就不能用。
      
     判别方法的特点:判别方法直接学习的是决策函数Y=f(X)或者条件概率分布P(Y|X)。不能反映训练数据本身的特性。但它寻找不同类别之间的最优分类面,反映的是异类数据之间的差异。直接面对预测,往往学习的准确率更高。由于直接学习P(Y|X)或P(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
    
     生成算法尝试去找到底这个数据是怎么生成的(产生的),然后再对一个信号进行分类。基于你的生成假设,那么那个类别最有可能产生这个信号,这个信号就属于那个类别。判别模型不关心数据是怎么生成的,它只关心信号之间的差别,然后用差别来简单对给定的一个信号进行分类。
    

分类问题、标注问题、回归问题

  1. 分类问题
  • 在监督学习中,当输出变量取有限个离散值时,预测问题便成为分类问题。
  • 二分类问题常用的评价指标是精确率(precision)与召回率(recall)
  • 许多的机器学习方法可以用来解决分类问题,包括近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、SVM、adaBoost、贝叶斯网络、神经网络等。
  1. 标注问题
  • 标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。
  • 标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。
  1. 回归问题
  • 回归用于预测输入变量与输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
  • 回归学习最常用的损失函数是平方损失,在此情况下,回归问题可以由著名的最小二乘法求解。
    https://blog.csdn.net/u011630575/article/details/78909803
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值