统计学习方法 1-统计学习方法概论

统计学习

统计学习的特点

统计学习的主要特点是:
(1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的;
(2)统计学习以数据为研究对象,是数据驱动的学科;
(3)统计学习的目的是对数据进行预测与分析;
(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
(5)统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。

统计学习的对象

统计学习的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

统计学习的目的

统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。

统计学习的方法

统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。

统计学习的研究

统计学习研究一般包括统计学习方法(statistical learning method)、统计学习理论(statistical learning theory)及统计学习应用(application of statistical learning)三个方面。

监督学习

基本概念

输入空间、特征空间与输出空间

联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。

假设空间

问题的形式化

统计学习三要素

方法=模型+策略+算法

模型

由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。

策略

损失函数和风险函数

理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。

模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作Remp:

根据大数定律,当样本容量N趋于无穷时,经验风险Remp(f)趋于期望风险Rexp(f)。

经验风险最小化与结构风险最小化

当模型是条件概率分布, 损失函数是对数损失函数时, 经验风险朵小化就等价于极大似然估计

结构风险最小化(structural risk minimization, SRM)是为了防止过拟合而提出来的策略结构风险最小化等价千正则化(regularization).

当模型是条件概率分布、 损失函数是对数损失函数、模型复杂度由模型的先验概率表示时, 结构风险最小化就等价于最大后验概率估计.

算法

算法指学习模型的具体计算方法。
最优化算法,数值计算方法

模型评估与模型选择

训练误差与测试误差

测试误差是模型 Y=f(X) 关于测试数据集的平均损失:
测试误差反映了学习方法对未知的测试数据集的预测能力,

过拟合与模型选择

过拟合是指学习时选择的模型所包含的参数过多, 以致于出现这一模型对已知数据预测得很好, 但对未知数据预
测得很差的现象可以说模型选择旨在避免过拟合并提高模型的预测能力.

正则化与交叉验证

正则化

交叉验证

泛化能力

泛化误差

理论上对模型泛化能力的评估

泛化误差上界

生成模型和判别模型

典型的生成模型有:朴素贝叶斯法和隐马尔可夫模型,

典型的判别模型包括: K近邻法、 感知机、 决策树、 逻辑斯谛回归模型、 最大墒模型、 支持向量机、 提升方法和条件随机场等,

生成方法的特点:
生成方法可以还匝出联合概率分布P(X,Y), 而判别方法 则不能;生成方法的学习收敛速度更快, 即当样本容最增加的时候, 学到的模型可以更快地收敛千真实模型;当存在隐变量时, 仍可以用生成方法学习, 此时判别方法就不能用

判别方法的特点: 判别方法直接学习的是条件概率P(Y|X)或决策函数f(X), 直接面对预测, 往往学习的准确率更高;由于直接学习P(Y|X)或f(X), 可以对数据进行各种程度上的抽象、定义特征并使用特征, 因此可以简化学习问题。

分类问题

在监督学习中, 当输出变量Y取有限个离散值时, 预测问题便成为分类问题. 这时, 输入变量X可以是离散的, 也可以是连续 的

分类问题包括学习和分类两个过程。

许多统计学习方法可以用于分类,包括k近邻法、 感知机、 朴素贝叶斯法、 决策树、 决策列表、逻辑斯谛回归模型、 支持向量机、 提升方法、 贝叶斯网络、 神经网络、Winnow等.

标记问题

标注(tagging)也是一个监督学习问题。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列.标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。

标注问题分为学习和标注两个过程

标注常用的统计学习方法有· 隐马尔可夫模型、 条件随机场。

回归问题

回归用于预浏输入变量(自变量)和输出变堡(因变量)之间的关系, 特别是当输入变量的值发生变化时, 输出变量的值随之发生的变化.回归模型正是表示从输入变量到输出变量之间映射的函数.

回归问题分为学习和预测两个过程。

回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值