统计学习方法-笔记

最新推荐文章于 2023-06-06 23:13:29 发布

William张

最新推荐文章于 2023-06-06 23:13:29 发布

阅读量166

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mrwilliamvs/article/details/88957969

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

https://blog.csdn.net/jiaoyangwm/article/details/81139362

分类问题（label是有限。离散的）
逻辑回归，解决二分类问题。在空间中找到一个决策边界来完成分类的决策。

逻辑回归是将线性回归的连续值结果，通过sigmoid函数映射到(0,1)之间，完成分类问题，还能获取到每个类别的概率。
损失函数：对数损失函数。对数形式，损失函数的梯度图是碗形的，正负例分类界限很清晰，样本过多，连乘变累加，不会溢出。

逻辑回归实现多分类(softmax 回归)：（1）一对一分类，每两个类之间构造一个分类（共需n(n-1)/2个分类器，结果投票；（2）一对多分类器(共需n个，判断当前类别是正，其他都为负，共n个分类器，结果取最大的。)

问题类别互斥的话，多分类器或者多个二分类器， softmax；
问题类别不互斥，多个二分类器。
softmax是LR在多分类的推广。属于广义线性模型。元素指数与所有元素指数和的比值。所有类别概率和为1. LR就是K=2的softmax。比较像one vs all。

SVM和LR都用来分类，一般都只能处理二分类。
LR是参数模型，SVM是非参数模型；
目标函数：LR是logistic loss(对数损失)， SVM是hinge loss, 都是增大对分类影响较大的数据点权重，

SVM只考虑支持向量，和分类相关的少数点去学习分类器。 LR通过非线性映射，大大减小了离分类平面较远的数据点权重，相对提升了与分类相关点的权重。

回归问题（label是连续值）线性回归

聚类问题（没有label）

强化问题（没有label，结果给予反馈，不停的调整之前的行为，得到最好的结果）

统计学习方法阅读：
统计学习方法 = 模型 + 策略 + 算法。

模型（表示假设空间）：
非概率模型：决策函数表示的模型，
概率模型：条件概率表示的模型。
策略：从假设空间中选取最优模型。
损失函数（代价函数）：预测错误的程度。 0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
损失函数值越小，模型就越好。

损失函数的期望，平均意义上的损失，被称为风险函数，或期望损失。（测试集）
经验风险（经验损失）：模型关于训练样本集的平均损失。（训练集）

学习目标就是：期望、风险最小的模型，

经验风险最小化：（尽量去拟合训练集），样本容量很小时，容易过拟合。
极大似然估计，？？？？

结构风险最小化：正则化。在经验风险上加上表示模型复杂度的正则化项(regularizer)、罚项(penalty term).
结构风险小，需要经验风险和模型复杂度同时小。
贝叶斯估计中，最大后验概率估计(MAP)

监督问题：变成了经验风险、结构风险函数的最优化问题。

算法：
求解上述函数最优解的算法，一般要用数值计算方法求解，找到全局最优解，求解过程尽量高效。

模型评估与选择：
泛化能力: 测试集、对未知数据的预测能力。
目标在于：避免过拟合，并提高模型的预测能力。模型不能太复杂。对训练数据拟合的好，并且泛化能力强。最终目的，测试误差达到最小。
选择模型的方法：
正则化（选择经验风险、模型复杂度都较小的模型）奥卡姆剃刀原理（Occam’s razor),在所有可能选择的模型中，能够很好的解释已知数据、并且十分简单的，才是最好的模型，也是应该选择的模型）
贝叶斯估计：正则化项对应模型的先验概率，复杂模型先验概率较小，简单模型先验概率较大。

交叉验证。
随机将数据集划分为三部分，训练集、验证集、测试集，验证集用于模型选择，测试集用于最终对学习方法的评估。选择对验证集预测误差最小的模型。
实际中应用数据不足，采用交叉验证，重复使用数据，

监督学习：
生成方法，模型给定了输入X，产生输出Y的生成关系，联合概率P(X,Y)已经给定，求：P(Y|X)比如:朴素贝叶斯，隐马尔科夫模型（HMM）。
优点：学习收敛速度更快，可以还原联合概率分布P(X,Y)

判别方法。根据数据直接学习决策函数f(X), 或者条件概率P(Y|X), 作为预测模型，也叫判别模型。比如：KNN、决策树、LR、SVM,感知机。CRF。
优点：直接通过数据进行学习，直接预测，学习准确率会更高；可以对数据进行各种程度的抽象，定义特征并使用特征，简化学习问题。

分类问题：
评价指标：分类准确率（正确分类的样本数/总样本数）accuracy，
二分类问题：评价指标有：精确率(P，precision, 预测为正类中，正确的个数) = TP/(TP+FP) , 召回率(R， recall, 正类预测正确的个数) = TP/(TP + FN).
F1值，精确率和召回率的调和平均。 F1 = 2TP/(2TP + FP + FN), 精确率、召回率都高时，F1值会很高。
关注的类：正类，其他类：负类。
TP(正类->正类)， FN(正类->负类)， FP(负类->正类), TN(负类->负类)

标记问题：
输入：观测序列，输出：标记序列/状态序列。
标记个数有限，标记组合随序列长度呈指数级增长。

学习目标：条件概率最大。
常用的方法有：HMM、CRF

回归问题：
预测输入变量与输出变量之间的关系（映射函数），输入变量值发生变化，输出变量值随之发生变化。函数拟合。
输入变量个数，分为：一元回归、多元回归，
输入输出之间关系类型：线性回归，非线性回归。
常用的损失函数：平方损失函数。
模型有：最小二乘法。

朴素贝叶斯(naive Bayes)，基于贝叶斯定理，特征条件独立假设，分类方法。
先学习输入输出的联合概率分布，基于此模型，对给定x，利用贝叶斯定理，求出后验概率最大的输出y。实现简单，学习预测效率高。常用的方法。
类确定的情况下，用于分类的特征都是独立的，实现简单，但是会牺牲一部分分类准确率。

决策树（Decision Tree）
基本的分类，回归方法，主要用于分类。 决策树模型呈树形结构，在分类问题中，基于特征对实例进行分类的过程。if–then规则集合。
优点：模型具有可读性，分类速度快。
决策树学习的3个步骤：特征选择、决策树的生成、决策树的修剪。 ID3算法 -> C4.5算法 -> CART算法。

决策树定义：结点和有向边组成，结点有2种类型：内部结点(表示一个特征或属性)，叶结点(表示一个类)。

决策树与if–then规则：每一个实例被一条路径或一条规则覆盖，

William张

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法-笔记

https://blog.csdn.net/jiaoyangwm/article/details/81139362分类问题（label是有限。离散的）逻辑回归，解决二分类问题。在空间中找到一个决策边界来完成分类的决策。逻辑回归是将线性回归的连续值结果，通过sigmoid函数映射到(0,1)之间，完成分类问题，还能获取到每个类别的概率。损失函数：对数损失函数。对数形式，损失函数的梯度图是碗形...
复制链接

扫一扫