matlab 稳健回归分析,sklearn学习笔记——稳健回归分析

1、零碎的概念学习

Stochastic Gradient Descent   随机梯度下降法

Perceptron  感知机

Hinge Loss (折页损失函数、铰链损失函数)

Hinge Loss是一种目标函数(或者说损失函数)的名称,有的时候又叫做max-margin objective。其最著名的应用是作为SVM的目标函数。

其二分类情况下,公式如下:

l(y)=max(0,1−t⋅y)

其中,y是预测值(-1到1之间),t为目标值(±1)。

其含义为,y的值在-1到1之间就可以了,并不鼓励|y|>1,即并不鼓励分类器过度自信,让某个可以正确分类的样本距离分割线的距离超过1并不会有任何奖励。从而使得分类器可以更专注整体的分类误差。

【1】https://www.cnblogs.com/yymn/p/8336979.html    损失函数:Hinge Loss(max margin)

2、Robustness regression

Robustness regression: outliers and modeling errors

稳健拟合的一个重要概念是分解点(breakdown point):在拟合开始丢失内联数据时,可能偏离的数据部分。

一般来说,在高维设置(大n_特征)中进行稳健拟合非常困难。这里的健壮模型可能在这些设置中不起作用。

RANSAC: RANdom SAmple Consensus  样本随机一致性

ransac是一种不确定的算法,只产生一个具有一定概率的合理结果,这取决于迭代次数(见max_trials参数)。它通常用于线性和非线性回归问题,特别是在摄影测量计算机视觉领域。

该算法将完整的输入样本数据分割成一组可能受到噪声影响的内联和异常值,这些异常值例如由错误的测量或无效的数据假设引起的。然后,只根据确定的内联函数来估计得到的模型。

d89c7d0fa30f

泰尔森回归:与ols相比,theil-sen是一种非参数方法,这意味着它不假设数据的潜在分布。由于theil-sen是一种基于中值的估计量,因此它对损坏的数据(也就是离群值)更为稳健。在单变量设置中,如果是简单的线性回归,Theil-Sen的崩溃点约为29.3%,这意味着它可以容忍高达29.3%的任意损坏数据。

由于theil-sen的计算复杂性,建议使用它只针对小问题的样本数量和特征。

d89c7d0fa30f

HuberRegressor与Ridge不同,因为它对分类为异常值的样本应用线性损失。如果样本的绝对误差小于某个阈值,则将该样本分类为内联样本。它不同于TheilsenRegressor和RansacRegressor,因为它不忽略异常值的影响,但给予它们较小的权重。

d89c7d0fa30f

d89c7d0fa30f

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值