今天读文献,遇到有序回归(Ordinal Regression)算法。
通过简单的调研,这里说一下自己对有序回归的理解。
Ordinal Regression就是解决类别之间有某种顺序关系的模型,比如年龄,收入等。使模型除了考虑分类损失以外,还要考虑不同类别之间的顺序关系,使与真实标签排序更近的误判的损失小于远离真实标签的误判的损失。
有序回归问题可以看作是分类问题和回归问题的中间问题。(It can be considered an intermediate problem between regression and classification--wikipedia)
逻辑回归
原始的逻辑回归只解决二分类问题,由二分类问题进而也可以扩展到多分类问题。参考李航的《统计学习方法》。
分类问题可用于对猫,狗,鸟,花等的分类。
有序回归
但是,当不同类别的类别之间有一定的顺序关系时,仅仅使用分类损失是不够的。
比如:我们对人的年龄进行分类:0岁,1岁和2岁。这时仅仅使用分类损失是不够的。
如果一个样本的真实年龄是0,如果用分类方法,我们把它的年龄分类成1岁和2岁时的损失是相等的。但是,明显1岁要比2岁,更加接近于0岁,1岁是一个比2岁更可被接受的分类。因此从应用意义上,1岁应该比2岁有更小的损失。
有序回归就是解决这个问题,除了考虑分类损失以外,还要考虑误分类的类别和真实类别之间的排序关系,排序更近的损失应该更小。
有序回归的一个典型应用就是年龄估计的问题:年龄估计:Ordinal Regression