【统计学习方法 随笔 | 01】全书概述及监督学习概论

书的结构

本书主要分为两篇:监督学习和无监督学习。监督学习是从标注数据中学习模型的机器学习问题,无监督学习是从无标注数据中学习模型的机器学习问题。
第一篇中,第一章总览的介绍了统计学习与监督学习,接下来的每一章分别介绍了感知机、k近邻法、朴素贝叶斯发、决策树、logistic回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型、条件随机场等监督学习方法。
第二篇中,第13章总览的介绍了无监督学习,接下来分别介绍了聚类、奇异值分解、主成分分析、潜在语义分析、概率潜在语义分析、马尔可夫链蒙特卡洛法、潜在迪利克雷分配、PageRank算法等无监督学习方法。

第一章 统计学习与监督学习概论

1.2 统计学习的分类

1.2.1 基本分类

  1. 监督学习
    P6 监督学习的本质是学习输入到输出的映射的统计规律
    P7 输入与输出均为连续的预测问题是回归问题;输出变量为有限个离散变量的问题是分类问题;输入变量与输出变量均为变量序列的问题为标注问题。
    P7 输入到输出之间的映射可以用模型来表示,这些模型共属于一个集合,这个集合就叫假设空间(hypothesis space)。监督学习的模型可以是个概率空间(概率分布 P ( x ∣ y ) P(x|y) P(xy))或者非概率空间(决策函数 f ( x ) f(x) f(x)
    P7 监督学习可以简化为学习和预测两个过程,即通过学习得到一个模型,再使用模型对输入进行预测。
  2. 无监督学习
    P8 无监督学习的模型可以一般用隐式空间结构 Z Z Z来表示,可以表示为函数 z = g ( x ) z=g(x) z=g(x)、条件概率分布 P ( z ∣ x ) P(z|x) P(zx)或条件概率分布 P ( x ∣ z ) P(x|z) P(xz),模型对应的预测方法分别是聚类、降维和概率估计。
  3. 强化学习
    P9 强化学习是指智能体与环境连续互动中学习最优行为策略的机器学习问题,在每一步互动中,环境给智能系统一个状态 s t s_t st和一个奖励 r t r_t rt,智能系统采取一个动作 a t a_t at。通过不断的试错,实现长期奖励的最大化。
    P10 强化学习是一个马尔可夫决策过程,可以使用状态转移函数 P ( s t + 1 ∣ s t = s , a t = a ) P(s{t+1}|s_t=s,a_t=a) P(st+1st=s,at=a)来表示下一个状态,用衰减系数和奖励系数得到衡量长期奖励的动作价值函数,并选取出价值函数最大的策略 Π ∗ Π^* Π
    P10 强化学习分为基于策略的和基于价值的,前者为无模型的,后者为有模型的。前者直接学习马尔可夫决策过程 ,也就是状态转移函数与奖励函数,后者试图求解最优策略 Π ∗ Π^* Π,并用函数或者概率分布分模型来表示。
  4. 半监督学习与主动学习
    P11 半监督(semi-supervised)学习一般少数数据被标注,多数数据未标注,用未标注的数据辅助标注数据进行监督学习,减少因为标注带来的成本。
    P11 主动学习是指把认为更有价值的数据主动提供给教师进行标注,以比较小的标注代价,获得比较好的学习效果。

1.2.2 按模型分类

  1. 概率模型与非概率模型
    P11 概率模型一般是条件概率分布P,非线性模型(确定性模型)一般是函数 f ( x ) f(x) f(x)。条件概率分布和函数可以相互转换,条件概率分布最大化就是函数,函数归一化就是条件概率分布。两者之间的区别在于内在结构,前者一般可以表示为联合概率分布的形式 P ( y ∣ x ) P(y|x) Pyx
  2. 线性模型与非线性模型:取决于函数是否线性。
  3. 参数化模型与非参数化模型:前者限制参数维度,后者不限制
    1.2.3 按算法分类
    P13 在线学习与批量学习,在线学习每次接收一个新样本,批量学习每次接收所有样本。

1.2.4 按技巧分类

  1. 贝叶斯学习
    使用贝叶斯推理,也就是利用先验分布和似然函数计算后延概率,这种推理和极大似然估计这种基于频率的推理不同。
    P ( H ∣ E ) = P ( E ∣ H ) P ( E ) ⋅ P ( H ) P(H \mid E)=\frac{P(E \mid H)}{P(E)} \cdot P(H) P(HE)=P(E)P(EH)P(H)
  2. 核方法
    使用内积来简化计算,完成输入空间到特征空间的运算。

1.3 统计学习方法三要素

1.3.1 模型
P15 条件概率分布或者决策函数就是模型,他们的集合就是假设空间
1.3.2 策略
P16 策略就是学习或寻找最优模型的准则,损失函数或代价函数可以度量预测错误的程度,损失函数的期望/平均损失就是风险函数/期望损失。
P17 准则就是期望损失最小,根据训练集可以得到经验损失,如果训练集无限大,经验损失和期望损失就几乎一样。
P18 为了矫正经验风险,可以使用经验风险最小化与结构风险最小化,前者为代表的是极大似然估计,但在样本较小的情况下回发生过拟合,为了解决这个问题,就有了后者为代表就是正则化(例:最大后验概率估计),加入了正则化项或者叫惩罚项,可以根据模型复杂程度对模型进行调整。
1.3.3 算法
P19 根据学习策略,最后需要用算法从假设空间中计算出最优模型,也就是一个最优化问题。

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差
P19 训练误差:trainning error,关于训练数据集的平均损失.测试误差:test error,关于测试数据集的平均损失。假设损失函数是0-1损失,那么训练误差就是误差率,测试误差就是准确率。
P20 训练误差和测试误差并不是衡量预测能力的核心指标,泛化能力才是

1.4.2 过拟合与模型选择
P20 所选模型的复杂度比真实模型更高(参数过多),就是过拟合。主要的原因是数据中往往存在噪声,过度拟合会使得泛化能力减弱。
P21 随着模型复杂度的增加,训练误差会减小,但是测试误差会先减小再增大,然而训练最终目的是要让测试误差最小,所以需要折中取两者gap最小的模型。

1.5 正则化与交叉验证

P22 正则化和交叉验证都可以帮助进行模型的最优选择。
1.5.1 正则化
P22 正则化属于结构风险最小化测量,操作就是在经验风险后面加上一个正则化项/罚项,其与模型结构复杂度成单调递增,例如可以取模型参数向量的范数。正则化的作用是选择经验风险和模型风险同时较小的模型。
1.5.2 交叉验证
P23 交叉验证cross validation,设置验证集来选择有最小预测误差的模型。根据不同的切分有简单交叉验证(7:3分割),S折交叉验证(s个块,s-1个用来训练,1个用来验证测试,循环更改测试块,最后取平均测试误差最小的模型),留一交叉验证(s=n,数据极其少的情况)

1.6 泛化能力

1.6.1 泛化误差
P25 学习方法最重要的性质,指模型对未知数据预测的误差,也就是期望风险
1.6.2 泛化误差上界
P25 指泛化误差的概率上界,主要性质包括样本容量函数和假设空间容量函数:样本容量无限大,上界为0;假设空间容量越大,上界越大,模型越难学习。

1.7 生成模型与判别模型

P28 生成模型原理上由数据学习联合概率分布 P ( X ∣ Y ) P(X|Y) P(XY),然后求条件概率模型,模型表示给定输入X产生输出Y的关系。(关注的是概率分布关系)
P28 判别模型直接学习决策函数或者条件概率分布作为模型。主要关心给定输入X,应该预测什么样的输出Y。(关注的是预测方法)

1.8 监督学习应用

1.8.1 分类问题
P28 输出变量是离散的,输入可以是连续也可以是离散的。
P29 主要指标:准确率 acuuracy;精确率 precision;召回率 recall; F 1 F_1 1作为精确率和召回率的均值。

1.8.2 标注问题
P30 输入是一个观测序列,输出是一个标记序列或状态序列。
P31 评价指标:准确率、精确率、召回率。例:英文句子(观测序列)中对英文单词的观测

1.8.3 回归问题
P32 回归问题用于预测输入与输出之间的关系,拟合之间的函数。
P32 根据输入变量数目分为一元回归或多元回归,根据输入变量与输出变量的类型分为线性和非线性。
P32 常用的是平方损失函数,一般用最小二乘法求解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值