有序回归（Ordinal Regression）

最新推荐文章于 2024-06-05 07:45:00 发布

会说话的七里香

最新推荐文章于 2024-06-05 07:45:00 发布

阅读量6.7k

点赞数 3

文章标签：回归机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_43424482/article/details/122330071

版权

有序回归（Ordinal Regression）

序数回归建模的是有序输出，离散但是有顺序的类别。当一个连续的变量在观测的时候被设限时就会产生序数输出的结果。例如：当征求个人意见，但是结果却限制为离散的类别如 “不同意”、“未确定” 和 “同意”。

建模过程

许多经典的建模类别数据的方法都假设类别是无序的，因此相应的概率是可以交换的。然而，有序类别的排序会导致一致统计模型的所需的特定相关性。特别的，相邻类别之间概率需要比遥远的类别之间的相关性要高。

一个实现这种必要结构的方法是假设一个由连续隐变量组成的模型，对该隐变量进行限制即可导出叙述概率。这个隐变量只是一种构建具有期望相关性概率分布的一种方式，并不需要用来解释真实数据的生成过程。

一旦具有了构建概率分布的过程，我们便可以引入潜在的影响来连续的调整这些概率。

进行切割

假设隐变量分布空间为 $X = R$ ,概率分布密度函数为 $\pi(x)$ ，通过三个cut points， ${c_0,c_1,c_2}$ 把 $X$ 分割成两个区间，在这里 $c_0=-\infty,c_2=+\infty$ , $c_1$ 在中间，控制 $X$ 的分布情况，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ftdS5NXN-1641381160713)(解决的问题记录-2021.assets/image-20220105174926195.png)]

可以通过累计概率分布函数的差来计算相应的概率：

$p_1=\prod(c_1)-\prod(c_0)=\prod(c_1)-0$

$p_2=\prod(c_2)-\prod(c_1)=1-\prod(c_1)$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJXsmuvT-1641381160714)(解决的问题记录-2021.assets/image-20220105175225170.png)]

很容易把上面的过程扩展到多段的情况，使用 $K + 1$ 个有序的cut points可以把 $X$ 分割成 $K$ 份，从而可以使用如下公式计算出 $K$ 个有序概率：

$p_k=\prod(c_k)-\prod(c_{k-1})$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ENIxB7D0-1641381160714)(解决的问题记录-2021.assets/image-20220105175525891.png)]

此时完整的序数模型为：

$\pi(k|c_0,\dots,c_K)=\prod(c_k)-\prod(c_{k-1})$

上述构建过程对于任何关于 $X$ 的分布都成立，可以通过配置内部的切割点来实现任何期望的序数概率，通常可以考虑累积分布的计算复杂度来选择合适的关于 $X$ 的概率分布。

当选择如下式所示的逻辑概率密度函数时：

$\pi(x)=\frac{e^{-x}}{(1+e^{-x})^2}$

其累计分布函数为sigmoid函数：

$\sigma(x)=\frac{1}{1+e{-x}}$

此时定义为 ordinal logistic或者ordered logistic，如果概率密度函数选择高斯分布，则称为 ordinal probit或者ordered probit。

Cut to the Feeling

如何来建模潜在因素对序数概率的影响呢？特别的，假设潜在因素记为 $\gamma$ ，和较大的序数输出结果有关，问题的关键在于如何设计模型，使得当 $\gamma > 0$ 的时候把概率分布拉向较大的序数输出结果，当 $\gamma < 0$ 时，把概率分布拉向较小的序数输出结果。

实际上可以通过把 $\longmapsto x-\gamma$ 来实现：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fb1A3nph-1641381160715)(解决的问题记录-2021.assets/image-20220105185812102.png)]

由于潜在空间平移和切割点之间的这种等价性，在这种结构中，序数概率只告知 $\gamma$ 和切割点的相对位置。当对和切割点联合建模时，这导致观测模型中的不可辨识性和产生的似然函数中的强退化（个人理解为多组不同的 $\gamma$ 和cut points可能代表同一个结果，比如 $\gamma$ 、cut points和 $2\gamma$ 和 $\gamma$ ）。为了防止这些退化从已实现的似然函数传播到相应的后验分布，我们必须小心地将 $\gamma$ 、切割点，或者甚至两者都锚定到先验模型中的一些基线值。

一个更好的方法是完全避免对任何基线 $\gamma$ 建模，而是使用这种构造来对跨不同环境的 $\gamma$ 中的异构性建模。例如，考虑亲和本身受外部协变量的影响， $\gamma=\alpha+\beta x$ 。截距 $\alpha$ 不是从切割点确定的，因此不是真正定义明确的。理想情况下，我们将完全放弃截距，只对协变量依赖关系建模， $\gamma=\beta x$ 。