统计学基础专栏05---分类

最新推荐文章于 2022-09-18 16:06:17 发布

lucas_ch

最新推荐文章于 2022-09-18 16:06:17 发布

阅读量829

点赞数

分类专栏：统计学文章标签：机器学习统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39693517/article/details/116138379

版权

统计学专栏收录该内容

5 篇文章 1 订阅

订阅专栏

0、术语

0.5、分类

条件概率

在给定另一个事件（比如 Y = i）的条件下，观测到某个事件（比如 X = i）的概率，记作

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SgnOqzQW-1619356377767)(统计学基础.assets/image-20210424163747496.png)]

后验概率

在给定预测因子的情况下，出现某一结果的概率（后验概率不同于结果的先验概率，后者并未考虑预测因子的信息）。

协方差

对一个变量相对于另一个变量的一致程度（幅度和方向类似）的度量。

判别函数

当应用于预测变量上时，该函数可以使类之间的分离度最大化。

判别权重

应用判别函数得到的分值，用于估计记录属于某个类的概率。

Logit 函数

一种能将属于某个类的概率映射到 ±∞ 范围上（而不是 0 到 1 之间）的函数。

几率

“成功”（1）与“不成功”（0）之间的比率。

对数几率

转换后的模型（即线性模型）中的响应。该响应已被映射回概率值。

正确率（accuracy）

正确分类的百分比（或比例）。

混淆矩阵

按预测分类和实际分类情况对记录分别计数，将计数结果以表格形式显示。例如，对于二元变量，使用的是 2×2 的表格。

灵敏度

在预测结果中，1 被正确分类的百分比（或比例）

特异性

在预测结果中，0 被正确分类的百分比（或比例）

准确率（precision）

预测结果为 1、真实值也为 1 的百分比（或比例）。

ROC 曲线

灵感度与特异性的绘图。

提升（lift）

在不同截止概率的情况下，衡量模型在识别（相对罕见的）1 上的有效性。

欠采样

在分类模型中，使用更少的多数类记录。

过采样

在分类模型中，更多地使用稀有类记录。必要时可以使用自助法。

上权重、下权重

在模型中，对稀有类赋予更大的权重，对多数类赋予更小的权重

数据生成

类似于自助法，只是每个新的自助记录与原记录略有不同。

z 分数

对结果做归一化所生成的值。

K

在最近邻计算中使用的近邻个数。

5、分类

二元分类0或1，是或否

5.1、朴素贝叶斯算法

朴素贝叶斯算法使用在给定输出情况下观测到预测因子值的概率，估计给定一组预测因子的值时观测到结果 Y = i 的概率。

5.1.1、准确的贝叶斯分类是不切实际的

如果预测变量超出一定的数量，那么很多待分类的记录就无法准确地匹配。朴素贝叶斯是一种数据驱动的经验性方法，就是在给定结果的情况下对预测值概率的初始计算，以及对结果概率的最终计算。

5.1.2、朴素解决方案

为什么“朴素”，因为做了一个简单的假设，即在给定观测结果的情况下，预测因子值向量的确切条件概率，可以由单个条件概率的乘积很好地估计出来。即假设各预测变量相互独立。

朴素贝叶斯分类会生成有偏估计。

5.1.3、数值型预测变量

贝叶斯分类器仅适用于分类预测变量。要将朴素贝叶斯用于数值型预测变量，需要采取下面两种方法之一。

将数值型预测变量划分为多个箱子，并转换为分类预测因子
使用正态分布等概率模型，估计条件概率 P(X | Y = i)

朴素贝叶斯要解答的问题是：“在每个结果类别中，哪些预测类别是最可能发生的？”。该问题可以转化为，在给定预测值的情况下，估计结果属于不同类别的概率。

5.2、判别分析

判别分析是最早提出的统计分类器

判别分析包含了很多种方法，其中最常用的是线性判别分析法（LDA）

5.2.1、协方差矩阵

协方差衡量了两个变量之间的关系

在这里插入图片描述

协方差为正值表示正相关，为负值表示负相关，协方差与变量 x 和 z 具有相同的尺度

协方差矩阵，对角线元素（即行和列对应于同一变量）为单个变量的方差，而非对角线元素是相应变量对间的协方差

在这里插入图片描述

5.2.2、费希尔线性判别分析

两个连续的数值变量 (x, z) 预测二元结果 y，费希尔线性判别法区分了组间变异性和组内变异性。

在这里插入图片描述

最大化组间平方和并最小化组内平方和，生成y=0和y=1两组之间的最大分离

5.3、逻辑回归

类似于多元线性回归，只是结果是二元的。

逻辑回归的计算速度快，模型输出可以快速地对新数据打分，因此得到了广泛的使用。

5.3.1、逻辑响应函数和Logit函数

实现了将 [0, 1] 区间内的概率值，映射到适用于线性建模的更广的区间上。

将概率建模为线性函数时，并不能确保概率 p 位于 [0, 1] 区间内

在这里插入图片描述

但概率值 p 必须位于[0, 1] 区间内。通过在预测因子中应用逻辑响应函数或逆 Logit（inverse logit）函数

去建模 p。

在这里插入图片描述

这一转换确保了 p 值位于 [0, 1] 区间内。

几率，是事件发生的概率除以事件不会发生的概率

在这里插入图片描述

故

在这里插入图片描述

与p建模结合为

在这里插入图片描述

取对数

在这里插入图片描述

对数几率（log-odds）函数也称为 Logit 函数，它将概率 p 从 [0, 1] 区间映射为 (−∞, +∞) 区间上的任何值。于是可以用线性模型去预测概率。反过来，也可以通过应用截止规则（cut-off rules），将概率大于截止值的记录分类为 1，进而将概率值映射为分类值。

5.3.2、逻辑回归与广义线性模型

逻辑回归是广义线性模型（GLM）的一种特殊实例，用于将线性回归扩展到其他设置。

5.3.3、广义线性模型

特征：

一个概率分布或家族
一个将响应映射到预测因子的连接函数。例如，对于逻辑回归，它是Logit 函数。

广义线性模型最常见的形式是逻辑回归

5.3.4、逻辑回归的预测值

在这里插入图片描述

5.3.5、解释系数和优势比

优势比

在这里插入图片描述

X = 1 时 Y = 1 的几率与 X = 0 时 Y = 1 的几率的对比

5.3.6、线性回归与逻辑回归：相似之处和不同之处

共同点：

假设预测因子与响应之间存在线性参数的关联关系，并且都用类似的方式探索并发现最优模型
将模型概化为线性以使用预测因子的样条转换方法，同样适用于逻辑回归

不同点：

模型的拟合方式。逻辑回归不适用最小二乘法，而用最大似然估计法
模型残差的性质和分析方法

5.4、评估分类模型

5.4.1、混淆矩阵

混淆矩阵是分类性能度量的关键所在

在输出中，预测结果按列给出，而真实结果按行给出。矩阵的对角元素显示了正确预测数，而非对角线元素则显示了错误预测数。

在这里插入图片描述

5.4.2、稀有类问题

要预测的类中存在着不平衡的情况，其中一个类比另一个类更普遍，例如，合法保险索赔相对于欺诈保险索赔，浏览购物网站的用户相对于在网站上实际购物的用户。

用 1 表示更重要的情况，因为将 1 误分类为 0 要比将 0 误分类为 1 的代价更大

在此类情况下，最准确的分类模型应该将所有的内容分类为 0，除非各个类是非常易于分离的。。但是，这样的模型并没什么用处。此时的正确率不是很重要。

5.4.3、准确率、召回率和特异性

准确率测量了预测阳性结果的正确率

在这里插入图片描述

召回率也称为灵敏度，它衡量了模型预测阳性结果的能力，即模型正确识别 1 的比例

在这里插入图片描述

特异性（specifificity），它测量了模型预测阴性结果的能力

在这里插入图片描述

5.4.4、ROC曲线

在召回率和特异性之间存在着权衡。捕获更多的 1，通常意味着有更多的 0 被错误地分类为 1。一个理想的分类器，应该在对 1 的分类上做得很好，不会将更多的 0 分类为 1。

捕获这种权衡的度量，通常简称为 ROC 曲线。ROC 曲线在 y 轴上绘制召回率（灵敏度），在 x 轴上绘制特异性。

于非常有效的分类器（或医疗中非常有效的诊断测试），ROC 曲线将偏向图的左上角。这样的分类器能够正确地识别大量的 1，不会将很多 0 误分类为 1。

在这里插入图片描述

5.4.5、AUC

ROC 曲线生成曲线下面积（AUC）度量,AUC 的值越大，分类器越有效。如果 AUC 为 1，表示一个完美的分类器：将所有 1 正确分类，且没有任何 0 被误分类为 1

5.4.6、提升

在稀有类问题中，为了避免将所有的记录分类为 0，我们需要将模型的截止概率降至0.5 以下。更改截止值会增加捕获 1 的机会，然而代价就是将更多的 0 误分类为 1。

那么如何确定最优的截止值？可以使用提升（lift）这一概念来解答。

5.5、不平衡数据的处理策略

5.5.1、欠采样

为了使要建模的数据在 0 和 1 之间取得平衡，一种解决方法是对多数类做欠采样（或下采样）。

欠采样的基本思想是，认为多数类的数据中存在很多冗余的记录。处理规模更小、更平衡的数据集，将有利于改进模型的性能，准备数据以及探索和实验模型也会更容易

5.5.2、过采样以及上权重和下权重

如果我们面对的是一个规模较小的数据集，那么对多数类做欠采样就会存在丢弃一些有用信息的风险。在这种情况下，我们不应对多数类做欠采样，而应使用有放回的自助法去抽取更多的数据，实现对稀有类的过采样（上采样）。

5.5.3、数据生成

如果使用了数据中所有的“1”依然不够，可以对稀有类做自助法，或使用 SMOTE算法创建与稀有类相似的合成数据。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
统计学基础专栏05---分类

0、术语0.5、分类条件概率在给定另一个事件（比如 Y = i）的条件下，观测到某个事件（比如 X = i）的概率，记作[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SgnOqzQW-1619356377767)(统计学基础.assets/image-20210424163747496.png)]后验概率在给定预测因子的情况下，出现某一结果的概率（后验概率不同于结果的先验概率，后者并未考虑预测因子的信息）。协方差对一个变量相对于另一个变量的一致程度（幅度和方向
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lucas_ch 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。