有序回归(Ordinal Regression)

有序回归(Ordinal Regression)

序数回归建模的是有序输出,离散但是有顺序的类别。当一个连续的变量在观测的时候被设限时就会产生序数输出的结果。例如:当征求个人意见,但是结果却限制为离散的类别如 “不同意”、“未确定” 和 “同意”。

建模过程

许多经典的建模类别数据的方法都假设类别是无序的,因此相应的概率是可以交换的。然而,有序类别的排序会导致一致统计模型的所需的特定相关性。特别的,相邻类别之间概率需要比遥远的类别之间的相关性要高。

一个实现这种必要结构的方法是假设一个由连续隐变量组成的模型,对该隐变量进行限制即可导出叙述概率。这个隐变量只是一种构建具有期望相关性概率分布的一种方式,并不需要用来解释真实数据的生成过程。

一旦具有了构建概率分布的过程,我们便可以引入潜在的影响来连续的调整这些概率。

进行切割

假设隐变量分布空间为 X = R X=R X=R ,概率分布密度函数为 π ( x ) \pi(x) π(x),通过三个cut points, c 0 , c 1 , c 2 {c_0,c_1,c_2} c0,c1,c2 X X X分割成两个区间,在这里 c 0 = − ∞ , c 2 = + ∞ c_0=-\infty,c_2=+\infty c0=,c2=+, c 1 c_1 c1在中间,控制 X X X的分布情况,如下图所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ftdS5NXN-1641381160713)(解决的问题记录-2021.assets/image-20220105174926195.png)]

可以通过累计概率分布函数的差来计算相应的概率:

p 1 = ∏ ( c 1 ) − ∏ ( c 0 ) = ∏ ( c 1 ) − 0 p_1=\prod(c_1)-\prod(c_0)=\prod(c_1)-0 p1=(c1)(c0)=(c1)0

p 2 = ∏ ( c 2 ) − ∏ ( c 1 ) = 1 − ∏ ( c 1 ) p_2=\prod(c_2)-\prod(c_1)=1-\prod(c_1) p2=(c2)(c1)=1(c1)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJXsmuvT-1641381160714)(解决的问题记录-2021.assets/image-20220105175225170.png)]

很容易把上面的过程扩展到多段的情况,使用 K + 1 K+1 K+1个有序的cut points可以把 X X X分割成 K K K份,从而可以使用如下公式计算出 K K K个有序概率:

p k = ∏ ( c k ) − ∏ ( c k − 1 ) p_k=\prod(c_k)-\prod(c_{k-1}) pk=(ck)(ck1)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ENIxB7D0-1641381160714)(解决的问题记录-2021.assets/image-20220105175525891.png)]

此时完整的序数模型为:

π ( k ∣ c 0 , … , c K ) = ∏ ( c k ) − ∏ ( c k − 1 ) \pi(k|c_0,\dots,c_K)=\prod(c_k)-\prod(c_{k-1}) π(kc0,,cK)=(ck)(ck1)

上述构建过程对于任何关于 X X X的分布都成立,可以通过配置内部的切割点来实现任何期望的序数概率,通常可以考虑累积分布的计算复杂度来选择合适的关于 X X X的概率分布。

当选择如下式所示的逻辑概率密度函数时:

π ( x ) = e − x ( 1 + e − x ) 2 \pi(x)=\frac{e^{-x}}{(1+e^{-x})^2} π(x)=(1+ex)2ex

其累计分布函数为sigmoid函数:

σ ( x ) = 1 1 + e − x \sigma(x)=\frac{1}{1+e{-x}} σ(x)=1+ex1

此时定义为 ordinal logistic或者ordered logistic,如果概率密度函数选择高斯分布,则称为 ordinal probit或者ordered probit。

Cut to the Feeling

如何来建模潜在因素对序数概率的影响呢?特别的,假设潜在因素记为 γ \gamma γ,和较大的序数输出结果有关,问题的关键在于如何设计模型,使得当 γ > 0 \gamma > 0 γ>0的时候把概率分布拉向较大的序数输出结果,当 γ < 0 \gamma < 0 γ<0时,把概率分布拉向较小的序数输出结果。

实际上可以通过把 x ⟼ x − γ x \longmapsto x-\gamma xxγ来实现:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fb1A3nph-1641381160715)(解决的问题记录-2021.assets/image-20220105185812102.png)]

由于潜在空间平移和切割点之间的这种等价性,在这种结构中,序数概率只告知 γ \gamma γ 和切割点的相对位置。当对和切割点联合建模时,这导致观测模型中的不可辨识性和产生的似然函数中的强退化(个人理解为多组不同的 γ \gamma γ和cut points可能代表同一个结果,比如 γ \gamma γ、cut points和 2 γ 2\gamma 2γ c u t p o i n t s + 2 ∗ γ cut points + 2 * \gamma cutpoints+2γ)。为了防止这些退化从已实现的似然函数传播到相应的后验分布,我们必须小心地将 γ \gamma γ、切割点,或者甚至两者都锚定到先验模型中的一些基线值。

一个更好的方法是完全避免对任何基线 γ \gamma γ建模,而是使用这种构造来对跨不同环境的 γ \gamma γ中的异构性建模。例如,考虑亲和本身受外部协变量的影响, γ = α + β x \gamma=\alpha+\beta x γ=α+βx。截距 α \alpha α不是从切割点确定的,因此不是真正定义明确的。理想情况下,我们将完全放弃截距,只对协变量依赖关系建模, γ = β x \gamma=\beta x γ=βx

参考链接:Ordinal Regression (betanalpha.github.io)

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值