统计学习基础

统计学习基础

脑图查看效果更好

统计学习

机器学习:统计机器学习

基本假设:同类数据(某种共同性质的数据)具有一定的统计规律性

目的:对数据预测与分析

方法:基于数据构建统计模型

包括监督学习、非监督学习、半监督学习、强化学习等

步骤:

(1)有限训练数据集
(2)学习模型集合(所有可能模型的假设空间)
(3)确定学习策略–模型选择准则
(4)学习算法–求解最优模型
(5)使用模型对数据进行预测或分析

监督学习

输入(出)空间:输入(出)所有可能取值的集合

特征空间:输入实例由特征向量表示,所有特征向量存在的空间即为特征空间

基本假设:输入X输出Y遵循联合概率分布P(X, Y)分布函数

训练数据与测试数据被看做是依赖联合概率分布P(X, Y)独立同分布产生

目的:学习一个由输入到输出的映射,由模型来表示

假设空间:模型属于输入空间到输出空间映射的集合,这个集合就是假设空间

监督学习的模型分两种

概率模型:由条件概率分布P(X, Y)表示
非概率模型:由决策函数Y = f(X)表示

统计学习三要素

表示: 方法 = 模型 + 策略 + 算法

模型

假设空间 定义为决策函数集合
X Y 是输入输出空间的变量

策略

损失函数和风险函数
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数(对数似然损失函数)
损失函数的期望–称为风险函数或期望损失
经验风险
结构风险 = 经验风险+正则化项(罚项)
最优化
经验风险最小化–过拟合–例子:极大似然估计:模型=条件概率分布,损失函数=对数损失函数
结构风险最小化=正则化

算法

求解最优化问题
存在显示解析解:简单易解决
不存在:数值计算方法求解,难点-全局最优解,高效

模型评估与模型选择

训练误差与测试误差

训练误差 = 经验风险
测试误差

过拟合与模型选择

过拟合:模型复杂度过高,对已知数据预测很好,对未知数据预测很差
训练误差和测试误差与模型复杂度关系

正则化与交叉验证

正则化

结构风险最小化策略–经验风险+正则化项

交叉验证

简单交叉验证 随机切分两份
S折交叉验证
留一交叉验证 S=N时的特殊情况

泛化能力

泛化误差

使用学到的模型对为主数据预测的误差

泛化误差上界

是样本容量的函数:样本容量增加–泛化误差上界趋于0
是假设空间容量的函数:假设空间越大–模型难学–泛化误差上界越大

生成模型和判别模型

生成模型

生成方法学习而成
数据学习联合概率分布P(X, Y),求出条件概率分布P(Y|X)作为预测模型
例子: 朴素贝叶斯, 隐马尔科夫模型
特点
可以还原联合概率分布
收敛速度快
存在隐变量仍可学习

判别模型

判别方法学习而成
直接学习决策函数或者条件概率函数作为预测的模型
例子:KNN, 感知机,决策树,LR, 最大熵模型, SVM, bagging和boosting,CRF
特点
准确率高
对数据抽象,定义特征并使用,可以简化学习问题

详细问题

分类问题

TP-正类预测为正类数
FN-正类预测为负类数
FP-负类预测为正类数
TN-正类预测为负类数
精确率:预测为正类数中预测准确的比例
召回率:预测准确数中预测为正类的比例
F1值 精确率和召回率的调和均值

标注问题

常用
隐马尔科夫链
CRF

回归问题

常用:平方损失函数
求解:最小二乘法
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值