统计学习方法
文章平均质量分 70
Datawhale
一个开源的学习组织
展开
-
标注问题
标注标注(tagging) 也是一个监督学习问题。 可以认为标注问题是分类问题的一个推广, 标注问题又是更复杂的结构预测问题的简单形式。 标注问题的输入是一个观测序列, 输出是一个标记序列或状态序列。 标注问题的目标在于学习一个模型, 使它能够对观测序列给出标记序列作为预测。 注意, 可能的标记个数是有限的, 但其组合所成的标记序列的个数是依序列长度呈指数级增长的。标注的过程...原创 2018-08-03 23:46:19 · 3976 阅读 · 0 评论 -
分类问题
分类问题在监督学习中, 当输出变量Y取有限个离散值时, 预测问题便成为分类问题。 这时, 输入变量X可以是离散的, 也可以是连续的。分类器监督学习从数据中学习一个分类模型或分类决策函数, 称为分类器(classifier) 。 分类分类器对新的输入进行输出的预测(prediction) , 称为分类(classification) 。 可能的输出称为类(class) 。 ...原创 2018-08-03 11:48:46 · 894 阅读 · 0 评论 -
生成模型与判别模型
基本概念监督学习的任务就是学习一个模型, 应用这一模型, 对给定的输入预测相应的输出。 这个模型的一般形式为决策函数:Y=f(X)或者条件概率分布:P(Y|X)监督学习方法又可以分为生成方法(generative approach) 和判别方法(discriminative approach) 。 所学到的模型分别称为生成模型(generative model) 和判别模型(discr...原创 2018-08-03 10:58:48 · 435 阅读 · 0 评论 -
泛化能力
基本概念泛化能力学习方法的泛化能力(generalization ability) 是指由该方法学习到的模型对未知数据的预测能力, 是学习方法本质上重要的性质。 现实中采用最多的办法是通过测试误差来评价学习方法的泛化能力。 但这种评价是依赖于测试数据集的。 因为测试数据集是有限的, 很有可能由此得到的评价结果是不可靠的。 统计学习理论试图从理论上对学习方法的泛化能力进行分析。泛...原创 2018-08-02 18:10:17 · 7813 阅读 · 1 评论 -
正则化与交叉验证
基本概念两种常用的模型选择方法: 正则化与交叉验证。正则化模型选择的典型方法是正则化(regularization) 。 正则化是结构风险最小化策略的实现, 是在经验风险上加一个正则化项(regularizer) 或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数, 模型越复杂, 正则化值就越大。 比如, 正则化项可以是模型参数向量的范数。 第1项的...原创 2018-08-02 17:34:14 · 1612 阅读 · 0 评论 -
模型评估与模型选择
基本概念训练误差与测试误差统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会给出不同的模型。 当损失函数给定时, 基于损失函数的模型的训练误差(training error) 和模型的测试误差(test error) 就自然成为学习方法评估的标准。注意:统计学习方法具体采用的损失函数未必是评估时使用的损失函数。 当然, 让两者一致...原创 2018-08-02 17:33:30 · 1837 阅读 · 0 评论 -
统计学习三要素 模型+策略+算法
统计学习方法都是由模型、 策略和算法构成的。 即统计学习方法由三要素构成, 可以简单地表示为:方法=模型+策略+算法模型统计学习首要考虑的问题是学习什么样的模型。 在监督学习过程中, 模型就是所要学习的条件概率分布或决策函数。 模型的假设空间包含所有可能的条件概率分布或决策函数。 例如, 假设决策函数是输入变量的线性函数, 那么模型的假设空间就是所有这些线性函数构成的函数集合。...原创 2018-08-01 21:00:05 · 5931 阅读 · 0 评论 -
监督学习
基本概念监督学习的任务监督学习的任务是学习一个模型, 使模型能够对任意给定的输入, 对其相应的输出做出一个好的预测。 注意:这里的输入、 输出是指某个系统的输入与输出, 与学习的输入与输出不同 。 输入空间、 特征空间与输出空间在监督学习中, 将输入与输出所有可能取值的集合分别称为输入空间与输出空间。 1. 输入与输出空间可以是有限元素的集合, 也可以是整个欧氏空间。 2...原创 2018-08-01 17:19:26 · 832 阅读 · 0 评论 -
统计学习
基本概念统计学习统计学习(statistical learning) 是基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 也称为统计机器学习(statistical machine learning) ...原创 2018-08-01 15:29:48 · 3044 阅读 · 0 评论 -
回归问题
回归回归(regression) 是监督学习的另一个重要问题。 回归用于预测输入变量(自变量) 和输出变量(因变量) 之间的关系, 特别是当输入变量的值发生变化时, 输出变量的值随之发生的变化。 回归模型正是表示从输入变量到输出变量之间映射的函数。 回归问题的学习等价于函数拟合: 选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据(参照1.4.2节) 。回归的过程...原创 2018-08-03 23:57:02 · 6068 阅读 · 0 评论 -
机器学习拓展知识(数学/统计/算法)
1原创 2018-08-13 18:26:48 · 719 阅读 · 0 评论