统计学基础专栏05---分类

0、术语

0.5、分类

条件概率

在给定另一个事件(比如 Y = i)的条件下,观测到某个事件(比如 X = i)的概率,记作

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SgnOqzQW-1619356377767)(统计学基础.assets/image-20210424163747496.png)]

后验概率

在给定预测因子的情况下,出现某一结果的概率(后验概率不同于结果的先验概率,后者并未考虑预测因子的信息)。

协方差

对一个变量相对于另一个变量的一致程度(幅度和方向类似)的度量。

判别函数

当应用于预测变量上时,该函数可以使类之间的分离度最大化。

判别权重

应用判别函数得到的分值,用于估计记录属于某个类的概率。

Logit 函数

一种能将属于某个类的概率映射到 ±∞ 范围上(而不是 0 到 1 之间)的函数。

几率

“成功”(1)与“不成功”(0)之间的比率。

对数几率

转换后的模型(即线性模型)中的响应。该响应已被映射回概率值。

正确率(accuracy)

正确分类的百分比(或比例)。

混淆矩阵

按预测分类和实际分类情况对记录分别计数,将计数结果以表格形式显示。例如,对于二元变量,使用的是 2×2 的表格。

灵敏度

在预测结果中,1 被正确分类的百分比(或比例)

特异性

在预测结果中,0 被正确分类的百分比(或比例)

准确率(precision)

预测结果为 1、真实值也为 1 的百分比(或比例)。

ROC 曲线

灵感度与特异性的绘图。

提升(lift)

在不同截止概率的情况下,衡量模型在识别(相对罕见的)1 上的有效性。

欠采样

在分类模型中,使用更少的多数类记录。

过采样

在分类模型中,更多地使用稀有类记录。必要时可以使用自助法。

上权重、下权重

在模型中,对稀有类赋予更大的权重,对多数类赋予更小的权重

数据生成

类似于自助法,只是每个新的自助记录与原记录略有不同。

z 分数

对结果做归一化所生成的值。

K

在最近邻计算中使用的近邻个数。

5、分类

二元分类0或1,是或否

5.1、朴素贝叶斯算法

朴素贝叶斯算法使用在给定输出情况下观测到预测因子值的概率,估计给定一组预测因子的值时观测到结果 Y = i 的概率。

5.1.1、准确的贝叶斯分类是不切实际的

如果预测变量超出一定的数量,那么很多待分类的记录就无法准确地匹配。朴素贝叶斯是一种数据驱动的经验性方法,就是在给定结果的情况下对预测值概率的初始计算,以及对结果概率的最终计算。

5.1.2、朴素解决方案

为什么“朴素”,因为做了一个简单的假设,即在给定观测结果的情况下,预测因子值向量的确切条件概率,可以由单个条件概率的乘积很好地估计出来。即假设各预测变量相互独立。

朴素贝叶斯分类会生成有偏估计。

5.1.3、数值型预测变量

贝叶斯分类器仅适用于分类预测变量。要将朴素贝叶斯用于数值型预测变量,需要采取下面两种方法之一。

  • 将数值型预测变量划分为多个箱子,并转换为分类预测因子

  • 使用正态分布等概率模型,估计条件概率 P(X | Y = i)

朴素贝叶斯要解答的问题是:“在每个结果类别中,哪些预测类别是最可能发生的?”。 该问题可以转化为,在给定预测值的情况下,估计结果属于不同类别的概率。

5.2、判别分析

判别分析是最早提出的统计分类器

判别分析包含了很多种方法,其中最常用的是线性判别分析法(LDA)

5.2.1、协方差矩阵

协方差衡量了两个变量之间的关系

在这里插入图片描述

协方差为正值表示正相关,为负值表示负相关,协方差与变量 xz 具有相同的尺度

协方差矩阵,对角线元素(即行和列对应于同一变量)为单个变量的方差,而非对角线元素是相应变量对间的协方差

在这里插入图片描述

5.2.2、费希尔线性判别分析

两个连续的数值变量 (x, z) 预测二元结果 y,费希尔线性判别法区分了组间变异性和组内变异性。

在这里插入图片描述

最大化组间平方和并最小化组内平方和,生成y=0和y=1两组之间的最大分离

5.3、逻辑回归

类似于多元线性回归,只是结果是二元的。

逻辑回归的计算速度快,模型输出可以快速地对新数据打分,因此得到了广泛的使用。

5.3.1、逻辑响应函数和Logit函数

实现了将 [0, 1] 区间内的概率值,映射到适用于线性建模的更广的区间上。

将概率建模为线性函数时,并不能确保概率 p 位于 [0, 1] 区间内

在这里插入图片描述

但概率值 p 必须位于[0, 1] 区间内。通过在预测因子中应用逻辑响应函数或逆 Logit(inverse logit)函数

去建模 p

在这里插入图片描述

这一转换确保了 p 值位于 [0, 1] 区间内。

几率,是事件发生的概率除以事件不会发生的概率

在这里插入图片描述

在这里插入图片描述

p建模结合为

在这里插入图片描述

取对数

在这里插入图片描述

对数几率(log-odds)函数也称为 Logit 函数,它将概率 p 从 [0, 1] 区间映射为 (−∞, +∞) 区间上的任何值。于是可以用线性模型去预测概率。反过来,也可以通过应用截止规则(cut-off rules),将概率大于截止值的记录分类为 1,进而将概率值映射为分类值。

5.3.2、逻辑回归与广义线性模型

逻辑回归是广义线性模型(GLM)的一种特殊实例,用于将线性回归扩展到其他设置。

5.3.3、广义线性模型

特征:

  • 一个概率分布或家族
  • 一个将响应映射到预测因子的连接函数。例如,对于逻辑回归,它是Logit 函数。

广义线性模型最常见的形式是逻辑回归

5.3.4、逻辑回归的预测值

在这里插入图片描述

5.3.5、解释系数和优势比

优势比

在这里插入图片描述

X = 1 时 Y = 1 的几率X = 0 时 Y = 1 的几率的对比

5.3.6、线性回归与逻辑回归:相似之处和不同之处

共同点:

  • 假设预测因子与响应之间存在线性参数的关联关系,并且都用类似的方式探索并发现最优模型
  • 将模型概化为线性以使用预测因子的样条转换方法,同样适用于逻辑回归

不同点:

  • 模型的拟合方式。逻辑回归不适用最小二乘法,而用最大似然估计法
  • 模型残差的性质和分析方法

5.4、评估分类模型

5.4.1、混淆矩阵

混淆矩阵是分类性能度量的关键所在

在输出中,预测结果按列给出,而真实结果按行给出。矩阵的对角元素显示了正确预测数,而非对角线元素则显示了错误预测数。

在这里插入图片描述

5.4.2、稀有类问题

要预测的类中存在着不平衡的情况,其中一个类比另一个类更普遍,例如,合法保险索赔相对于欺诈保险索赔,浏览购物网站的用户相对于在网站上实际购物的用户。

用 1 表示更重要的情况,因为将 1 误分类为 0 要比将 0 误分类为 1 的代价更大

在此类情况下,最准确的分类模型应该将所有的内容分类为 0,除非各个类是非常易于分离的。。但是,这样的模型并没什么用处。此时的正确率不是很重要。

5.4.3、准确率、召回率和特异性

准确率测量了预测阳性结果的正确率

在这里插入图片描述

召回率也称为灵敏度,它衡量了模型预测阳性结果的能力,即模型正确识别 1 的比例

在这里插入图片描述

特异性(specifificity),它测量了模型预测阴性结果的能力

在这里插入图片描述

5.4.4、ROC曲线

召回率特异性之间存在着权衡。捕获更多的 1,通常意味着有更多的 0 被错误地分类为 1。一个理想的分类器,应该在对 1 的分类上做得很好,不会将更多的 0 分类为 1。

捕获这种权衡的度量,通常简称为 ROC 曲线ROC 曲线y 轴上绘制召回率(灵敏度),在 x 轴上绘制特异性

于非常有效的分类器(或医疗中非常有效的诊断测试),ROC 曲线将偏向图的左上角。这样的分类器能够正确地识别大量的 1,不会将很多 0 误分类为 1。

在这里插入图片描述

5.4.5、AUC

ROC 曲线生成曲线下面积(AUC)度量,AUC 的值越大,分类器越有效。如果 AUC 为 1,表示一个完美的分类器:将所有 1 正确分类,且没有任何 0 被误分类为 1

5.4.6、提升

在稀有类问题中,为了避免将所有的记录分类为 0,我们需要将模型的截止概率降至0.5 以下。更改截止值会增加捕获 1 的机会,然而代价就是将更多的 0 误分类为 1。

那么如何确定最优的截止值?可以使用提升(lift)这一概念来解答。

5.5、不平衡数据的处理策略

5.5.1、欠采样

为了使要建模的数据在 0 和 1 之间取得平衡,一种解决方法是对多数类做欠采样(或下采样)。

欠采样的基本思想是,认为多数类的数据中存在很多冗余的记录。处理规模更小、更平衡的数据集,将有利于改进模型的性能,准备数据以及探索和实验模型也会更容易

5.5.2、过采样以及上权重和下权重

如果我们面对的是一个规模较小的数据集,那么对多数类做欠采样就会存在丢弃一些有用信息的风险。在这种情况下,我们不应对多数类做欠采样,而应使用有放回的自助法去抽取更多的数据,实现对稀有类的过采样(上采样)。

5.5.3、数据生成

如果使用了数据中所有的“1”依然不够,可以对稀有类做自助法,或使用 SMOTE算法创建与稀有类相似的合成数据。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lucas_ch

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值