保序回归: 给定了一个无序的数字序列,通过修改每个元素的值,得到一个非递减的数字序列,要求是使得误差(预测值和实际值差的平方)最小。比如在动物身上实验某种药物,使用了不同的剂量,按理说剂量越大,有效的比例就应该越高,但是如果发现了剂量大反而有效率降低了,这个时候就只有把无序的两个元素合并了,重新计算有效率,直到计算出来的有效率不大于比下一个元素的有效率。
PAVA法:循环遍历序列,若发现前者A大于后者B,则A和B对应的取值都取(Va*na+Vb*nb)/(a+b),直到整个序列都是P1<P2<...<Pn
Spark中使用IsotonicRegression类,来进行训练保序回归模型
使用的数据地址:链接: https://pan.baidu.com/s/1c33ji28 密码: 9v49
代码实现:
import