深入理解机器学习:从原理到算法 学习笔记-第1周 02简易入门

深入理解机器学习:从原理到算法 学习笔记-第1周 02简易入门

我的主页 www.csxiaoyao.com

第二章分析并证明学习问题中需要考虑的因素。以木瓜为例,要学会判断木瓜是否好吃,需要观察木瓜的颜色和软硬程度以及亲口尝试来确定是否好吃。

pic1
首先是描述一个能够刻画类似学习任务的形式化模型。
pic2

2.1 一般模型——统计学习理论框架

1 学习器的输入

领域集:X,例如所有木瓜的集合。
标签集:Y,目前仅讨论二元集合,如{0,1}或者{−1,+1},表示木瓜好吃和不好吃。
训练数据:形如S = ((x 1 ,y 1 )…(x m ,y m ))的有限序列,其中的元素以X ×Y形式成对出现,S称为训练集。

2 学习器的输出

  学习器输出预测规则h:X→Y,该函数也称为预测器、假设或分类器,例如预测某农贸市场的木瓜是否好吃。A(S)表示学习算法A在给定的训练序列S的情况下得出的假设。

3 一个简单的数据生成模型

  训练数据如何产生?首先假设实例(木瓜)根据某些概率分布D(岛上环境)采样获得。此时学习器并不知道此概率分布的任何信息。假设存在(学习器并不知道)正确的标记函数f:X→Y,使对任意i,yi=f(xi),学习器的任务仅需要指出样本的正确标签(木瓜是否好吃)。综上,训练集S的产生过程是:首先根据概率分布D采集样本点xi,然后利用正确的标记函数f为其赋予标签。(h是预测结果,f是已知关系函数)

4 衡量成功

  分类器(预测)误差:即h的误差,也就是h(x)!=f(x)的概率,其中x是根据分布D采集的随机样本。
  形式上,给定一个领域子集A ⊂ X,概率分布D,D(A)决定了取到x∈A的概率,A更像一个表达式π:X→{0,1},即A= {x∈X:π(x) = 1},判断A是否在X中,此时D(A)可用P x∼D [π(x)]表示。
预测准则h:X→Y的错误率定义为:
L D,f (h)=Px∼D [h(x)!=f(x)]= D({x:h(x)!=f(x)})
  其中x是X的一个随机样本,L D,f (h)也称为泛化误差、损失或h的真实误差。L(loss)代表误差。

5 注意事项:学习器可接触到的信息

  分布D和标记函数f对学习器都是未知的,学习者需要观察训练集。

2.2 经验风险最小化

pic3
  由于学习器不知道D和f,所以无法直接获知真实误差,只能计算出训练误差:

pic4

  其中[m] = {1,…,m},从预测器h出发到最小化LS(h)称为经验最小化,简称ERM。ERM可能会出现过拟合,LS(h)小不代表L D,f (h)小。

2.3 考虑归纳偏置的经验风险最小化

pic5
  修正ERM通常的解决方案是在一个受限的搜索空间中使用ERM,学习器应该在接触到数据之前提前选择预测器的集合(假设类H),ERMH学习器根据在S上的最小化概率误差,利用ERM规则选择选择一个h∈H:

pic6

  因为这种选择决定于学习器接触数据之前,因此需要一些学习问题的先验知识,虽然选择受限的假设类可以防止过拟合,但是也带来了更强的归纳偏置。
  对于一个类来说,最简单的一种限制就是限定其势的上界(H中h的个数)。机器学习中通常假设S中训练样本是从D中独立同分布抽取的,但是仍然可能存在着训练样本对于分布D完全不具有代表性,因此我们将采样到非代表性样本的概率表示为δ,同时(1− δ) 称为置信参数。
  由于无法摆在标签预测的绝对的准确性,引入一个参数评价预测的质量,称为精度参数,记为ε,如果L D,f (hs)<=ε,我们认为得到了一个近似正确的预测。

误导集

pic7

总结:对于足够大的m,由ERMH规则生成的有限假设类将会概率(置信度为1 − δ)近似(误差上界为ε)正确。

机器学习算法详解▪ 一、线性回归 ◦ 1、代价函数 ◦ 2、梯度下降算法 ◦ 3、均值归一化 ◦ 4、最终运行结果 ◦ 5、使用scikit-learn库中的线性模型实现 ▪ 二、逻辑回归 ◦ 1、代价函数 ◦ 2、梯度 ◦ 3、正则化 ◦ 4、S型函数(即) ◦ 5、映射为多项式 ◦ 6、使用的优化方法 ◦ 7、运行结果 ◦ 8、使用scikit-learn库中的逻辑回归模型实现 ▪ 逻辑回归_手写数字识别_OneVsAll ◦ 1、随机显示100个数字 ◦ 2、OneVsAll ◦ 3、手写数字识别 ◦ 4、预测 ◦ 5、运行结果 ◦ 6、使用scikit-learn库中的逻辑回归模型实现 ▪ 三、BP神经网络 ◦ 1、神经网络model ◦ 2、代价函数 ◦ 3、正则化 ◦ 4、反向传播BP ◦ 5、BP可以求梯度的原因 ◦ 6、梯度检查 ◦ 7、权重的随机初始化 ◦ 8、预测 ◦ 9、输出结果 ▪ 四、SVM支持向量机 ◦ 1、代价函数 ◦ 2、Large Margin ◦ 3、SVM Kernel(核函数) ◦ 4、使用中的模型代码 ◦ 5、运行结果 ▪ 五、K-Means聚类算法1、聚类过程 ◦ 2、目标函数 ◦ 3、聚类中心的选择 ◦ 4、聚类个数K的选择 ◦ 5、应用——图片压缩 ◦ 6、使用scikit-learn库中的线性模型实现聚类 ◦ 7、运行结果 ▪ 六、PCA主成分分析(降维) ◦ 1、用处 ◦ 2、2D-->1D,nD-->kD ◦ 3、主成分分析PCA与线性回归的区别 ◦ 4、PCA降维过程 ◦ 5、数据恢复 ◦ 6、主成分个数的选择(即要降的维度) ◦ 7、使用建议 ◦ 8、运行结果 ◦ 9、使用scikit-learn库中的PCA实现降维 ▪ 七、异常检测 Anomaly Detection ◦ 1、高斯分布(正态分布) ◦ 2、异常检测算法 ◦ 3、评价的好坏,以及的选取 ◦ 4、选择使用什么样的feature(单元高斯分布) ◦ 5、多元高斯分布 ◦ 6、单元和多元高斯分布特点 ◦ 7、程序运行结果
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值