统计学习方法概述

最新推荐文章于 2022-05-02 14:08:10 发布

qq_16049049

最新推荐文章于 2022-05-02 14:08:10 发布

阅读量298

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/qq_16049049/article/details/72831053

版权

统计学习方法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一篇博客，就当做学习笔记了，李航的统计学习方法，之前总是断断续续看一下，或者是冲着其中某一章节去的，今天打算陆续的记录下学习笔记，以供以后来参考。
第一章统计学习方法概述。
相信大部分人都是在学习机器学习的过程中了解到李航的这本统计学习方法的，因此统计学习的特点也基本与机器学习方法类似，他们研究的对象都是数据，从数据出发，提取数据的特征，并抽象出数据的模型，最终回到对数据的分析与预测中去。对于数据，由于他们具有统计规律行，所以可以用概率统计的方法来处理，比如用随机变量来描述数据特征，用概率分布来描述统计规律等。统计学习方法的一般化步骤如下：
1.得到一个有限的训练数据集合。
2.确定所有可能模型的假设空间，即学习模型的集合。
3.确定模型选择准则，即学习策略。
4.实现求解最优模型的算法，即学习的算法。
5.通过该学习方法选择最优模型。
6.利用最优模型来对新的数据预测或分析。
统计学习包括监督学习，半监督学习，无监督学习，强化学习等。
一些概念。
输入空间：输入的集合X
输出空间：输出的集合Y
特征空间：每个具体的输入是一个实例，由特征向量表示，所有特征向量存在的空间为特征空间，其每个维度对应一个特征。
训练集：用来训练模型数据的集合
测试集：用来检测模型性能的数据集合
验证集：用来对一些模型超参进行优化的数据集合
超参：用来描述模型中一些不具备原理指导性的参数，通过历史经验或不断的验证来得到优化的取值。
联合概率分布：对于统计学习来说，我们假设所有的数据集和都来自于输入与输出随机变量X，Y的联合概率分布P（X，Y）。
假设空间：由输入空间到输出空间映射（函数）的集合。
对于监督学习，通过学习得到最终的模型，或表示为条件概率分布P(Y，X)，或表示为决策函数Y=f（X），而在预测的过程中给定测试实例X，由模型
y=argmaxP(y|x)或Y=f（x）的函数给出。
统计学习方法三要素：模型，策略，算法。
模型：即假设空间的选择。
策略：按照什么样的准则去学习。包括损伤函数的选取，经验风险与结构风险trade off等。
算法：学习模型的具体算法。
关于loss function的种类。
1）01损伤函数 L（Y,f(X)） =（Y！=f（X））？1：0
2）平方损伤函数 L（Y,f(X)）= （Y - f（X））^2
3）绝对值损伤函数 L（Y,f(X)）= abs（Y - f（X））
4）最小负概率损伤函数 L（Y,f(X)）= -logP（Y|X）
关于经验风险与结构风险
经验风险（emp）：关于训练集的平均损失
经验风险最小化（erm）：f=min1/Nsum（L）。。。怎么打公式啊
结构风险：在经验风险上增加了模型复杂度的正则化项，防止过拟合。
结构风险最小：f=min1/Nsum（L）+ rJ（f）。。。不想花太多时间去研究怎么敲数学公式了。

正则化
L2正则化 r/2||w||^2
L1正则化 r|||w|| 稀疏正则化，结果趋向于0或1
交叉验证：把给定的数据进行切分为训练集，验证集，测试集，首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。
生成模型：由数据学习联合概率分布P（X,Y）,再求条件概率分布P（Y|X）为预测模型，即P（Y|X） = P(X,Y)/P（X），如navie bayes，hmm等
判别模型：由数据直接学习决策函数f，或P（Y|X），判别方法关心的是给定x，应预测什么样的输出y，包括knn，bp，决策数，logsit regression，svm，adaboost等。
关于分类器的性能指标。
准确率accuracy，正确分类的样本数与总数的比
对二分类
TP:真正类FN:假负类FP:假正类TN:真负类
精确率 P = TP/TP+FP
召回率R = TP/TP+FN