《统计学习方法》读书笔记一

最新推荐文章于 2022-05-15 13:25:59 发布

LSG.haha

最新推荐文章于 2022-05-15 13:25:59 发布

阅读量242

点赞数

分类专栏：读书笔记机器学习文章标签：统计学习方法机器学习损失函数过拟合

本文链接：https://blog.csdn.net/Mr_LiShao/article/details/91449719

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

读书笔记

2 篇文章 0 订阅

订阅专栏

今天开始学习李航老师的统计学习方法一书，在学习过程中，一些比较重要或值得探讨的点会写成博客，与大家分享或共同讨论。

统计学习方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习主要由监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervised learning）和强化学习（reinforcement learning）等组成。
统计学习方法三要素：模型（模型的假设空间）、策略（模型选择的准则）、算法（模型学习的算法）。
监督学习的任务是通过给定的数据的键值对学习一个模型，使得模型能够对任意给定的输入，对其相应的输入做出一个好的预测。
1. 在监督学习中，根据输入输出变量的不同类型，将预测任务分为以下几种：
  1. 回归问题：输入、输出变量均为连续变量
  2. 分类问题：输出变量为有限个离散变量
  3. 标注问题：输入变量与输出变量均为变量序列
损失函数：又称代价函数，用来度量预测错误的程度。损失函数是f（X）和Y的非负实值函数，记作L（Y，f（X））。
1. 其常见的损失函数有以下几种。
  1. 0-1损失函数
  2. 平方损失函数
  3. 绝对损失函数
  4. 对数损失函数（对数似然损失函数）
2. 一般来说，损失函数值越小，模型就越好。
3. 损失函数的期望（又称为风险函数或期望损失）
  2. 其中，X、Y是随机变量，P（X，Y）是X与Y的联合分布
4. 模型学习的目标就是选择期望风险最小的模型。
5. 因为一方面期望风险最小学习模型要用到联合分布，而另一反面联合分布是未知的，所以监督学习称为了一个病态问题。
6. 我们可以使用经验风险最小化或结构风险最小化来解决病态问题。
  1. 经验风险最小化
    2. 当样本容量足够大时，他能保证很好的学习效果。
    3. 当样本量较小是，容易产生‘过拟合’现象。
  2. 结构风险最小化
    1. 它是为了防止过拟合而提出的策略。
    3. 其中J（f）为模型的复杂度，即f越复杂，J（f）值就越大；λ是系数，大于等于0，用来权衡经验风险和模型复杂度。
过拟合：指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知的数据（即训练集中的数据）预测的很好，但对未知的数据（及测试集中的数据）预测的很差的现象。
1. 使用模型选择旨在避免过拟合并提高模型的预测能力。
2. 模型选择时，即要考虑对已知数据的预测能力，而且要考虑对未知数据的预测能力。
3. 常见的模型选择方法：
  1. 正则化一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。正则化符合奥卡姆剃刀原理：在所有可能选择的模型中，能够很好地解释一直数据并且十分简单才是最好的模型，也就是应该选择的模型。
  2. 交叉验证：当样本充足时，随机将样本数据切分成三部分，分别是训练集、验证集、测试集。
    1. 交叉验证的基本思想是重复地使用数据；把给定的数据进行切分，将切分的数据集组合为训练集和测试集，在此基础上反复地进行训练、测试以及模型选择。
    2. 简单交叉验证：用训练集在各种条件下训练模型，从而得到不同的模型；在测试集上评价各个模型的测试误差，选出测试误差最小的模型。
    3. S折交叉验证：随机将已给数据分为S个互不相交、大小相同哦的子集；然后利用S-1个子集的数据训练模型，利用余下的子集测试模型；将这一过程对可能的S中选择重复进行；最后选出S次评测中平均测试误差最小的模型。
    4. 留一交叉验证：S折交叉验证的特殊情况，S=n。这种方式常常在数据缺乏的情况下使用。
泛化能力：指由该方法学习到的模型对未知数据的预测能力。用模型对未知数据预测的误差即泛化误差。
监督学习从数据中学习一个分类模型或分类决策函数，称为分类器。分类器对新的输入进行输出的预测称为分类。可能的输出称为类。
1. 一般评判一个分类器性能的指标是分类准确率。
2. 二分类问题常用的分类指标是精确率与召回率。
  2. 此外还有F1值，是精确率和召回率的调和均值。
可用于分类问题的模型有：k近邻法、感知机、朴素贝叶斯法、局册数、决策列表、逻辑回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。
标注常用的统计学习方法有：隐马尔可夫模型、条件随机场。
回归问题按照输入变量的个数，分为一元回归和多元回归；按照输入标量和输出变量之间关系的类型及模型的类型，分为线性回归和非线性回归。回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以由著名的最小二乘法求解。

LSG.haha

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》读书笔记一

今天开始学习李航老师的统计学习方法一书，在学习过程中，一些比较重要或值得探讨的点会写成博客，与大家分享或共同讨论。统计学习方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习主要由监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervised learning）和强化学习（reinforcemen...
复制链接

扫一扫

专栏目录