统计学习方法笔记1—概论

最新推荐文章于 2024-04-13 21:30:27 发布

DMU_lzq1996

最新推荐文章于 2024-04-13 21:30:27 发布

阅读量238

点赞数

分类专栏：统计学习笔记

本文链接：https://blog.csdn.net/DMU_lzq1996/article/details/82791946

版权

统计学习笔记专栏收录该内容

17 篇文章 0 订阅

订阅专栏

第一章统计学习方法概论

1.1统计学习

统计学习特点：计算机网络平台，数据驱动，构建模型，预测分析
统计学习对象：data，具有一定统计规律的数据
统计学习目的：预测分析
统计学习方法：模型，策略，算法；统计学习方法的步骤：
统计学习方法的研究：理论与应用
统计学习方法重要性：数据挖掘领域核心技术

1.2监督学习

1.2.1基本概念

输入空间，输出空间，特征空间
实例的特征向量表示:
特征空间：表示实例的特征向量的集合
训练集的表示：
联合概率分布
输入与输出的随机变量X和Y遵循联合概率分布P（X,Y），P（X,Y）表示分布函数。
假设空间
输入空间到输出空间的模型集合，就是假设空间。
监督学习的模型分非概率模型（决策函数Y=F(X)）和概率模型(条件概率表示)

1.2.2问题形式化

监督学习问题：
在这里插入图片描述

1.3统计学习三要素（模型，策略，算法）

1.3.1模型

模型：由输入到输出的一个函数，所有模型（函数）构成假设空间。
模型分类：由决策函数表示的模型称为非概率模型；由条件概率表示的模型称为概率模型。
非概率模型：
在这里插入图片描述

概率模型：
在这里插入图片描述

1.3.2策略（如何从假设空间选择最优模型）

策略即衡量模型好坏的一个度量标准。

损失函数与风险函数
损失函数:利用模型进行预测的输出值f（X）与真实值Y的度量函数，记为L(Y,f(X))。
统计学习中常用的损失函数：

风险函数（期望损失）:平均意义下的损失，即损失函数的期望值。

模型选择即策略就是选择期望风险最小的模型。
经验风险最小化与结构风险最小化
经验风险：当具体到某一训练集上时，风险函数就变为经验风险，经验风险是关于训练样本集的平均损失。根据大数定律可以知道，当样本足够大时，经验风险就是风险函数。

经验风险最小化策略：最优模型即经验风险最小时的模型。

当样本容量过小时存在问题：过拟合现象—结构风险最小化
结构风险最小化：在经验风险上加上表示模型复杂度的正则化项（罚项）
结构风险定义为：

尾项表示模型复杂度，模型越复杂，结构风险越大，反之，模型越简单，结构风险越小。即可以有效防止过拟合问题。

1.3.3算法

在这里插入图片描述

1.4模型评估与模型选择

1.4.1训练误差与测试误差

训练误差：关于训练数据集
在这里插入图片描述
测试误差：关于测试数据集

1.4.2 过拟合与模型选择

过拟合现象：对于训练数据预测能力极高的高复杂度的模型，这类模型过于追求对于训练数据的拟合程度，训练误差极低，但导致模型参数过多，复杂度太高，而且对于未知数据的预测能力低，测试误差太大。
如何衡量模型复杂度与测试误差及训练误差的关系？
在这里插入图片描述

1.5正则化与交叉验证

1.5.1正则化

正则化：结构风险最小化策略的实现，为了选择经验风险与模型复杂度同时较小的模型。
正则化项：模型复杂度的单调递增函数，模型复杂度越高，正则化值越大。
正则化项不同形式：（范数？）
在这里插入图片描述

1.5.2交叉验证

数据集分为训练集，验证集，测试集，利用三个集合对模型进行来回验证，即交叉验证。
分类：简单交叉验证；S折交叉验证；留一交叉验证

1.6泛化能力

1.6.1 泛化误差

泛化误差即模型的期望风险。
在这里插入图片描述

1.6.2泛化误差上界

泛化误差上界性质：与样本容量成反比，与假设空间容量成正比。
二分类的泛化误差上界：
在这里插入图片描述

1.7生成模型与判别模型

生成模型：
在这里插入图片描述
判别模型：

优缺点：

1.8 三大监督学习问题

分类问题

分类问题中的模型称为分类器，评价分类器性能的指标有以下：
标注问题

经典应用：词性标注问题
常用统计学习方法：隐马尔科夫模型，条件随机场
回归问题

DMU_lzq1996

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法笔记1—概论

第一章统计学习方法概论1.1统计学习统计学习特点：计算机网络平台，数据驱动，构建模型，预测分析统计学习对象：data，具有一定统计规律的数据统计学习目的：预测分析统计学习方法：模型，策略，算法；统计学习方法的步骤：统计学习方法的研究：理论与应用统计学习方法重要性：数据挖掘领域核心技术1.2监督学习1.2.1基本概念输入空间，输...
复制链接

扫一扫