matlab 稳健回归分析,sklearn学习笔记——稳健回归分析

最新推荐文章于 2023-04-15 09:07:07 发布

Maggie H

最新推荐文章于 2023-04-15 09:07:07 发布

阅读量1.1k

点赞数

文章标签： matlab 稳健回归分析

1、零碎的概念学习

Stochastic Gradient Descent 随机梯度下降法

Perceptron 感知机

Hinge Loss (折页损失函数、铰链损失函数)

Hinge Loss是一种目标函数(或者说损失函数)的名称，有的时候又叫做max-margin objective。其最著名的应用是作为SVM的目标函数。

其二分类情况下，公式如下：

l(y)=max(0,1−t⋅y)

其中，y是预测值(-1到1之间)，t为目标值(±1)。

其含义为，y的值在-1到1之间就可以了，并不鼓励|y|>1，即并不鼓励分类器过度自信，让某个可以正确分类的样本距离分割线的距离超过1并不会有任何奖励。从而使得分类器可以更专注整体的分类误差。

【1】https://www.cnblogs.com/yymn/p/8336979.html 损失函数：Hinge Loss(max margin)

2、Robustness regression

Robustness regression: outliers and modeling errors

稳健拟合的一个重要概念是分解点(breakdown point)：在拟合开始丢失内联数据时，可能偏离的数据部分。

一般来说，在高维设置(大n_特征)中进行稳健拟合非常困难。这里的健壮模型可能在这些设置中不起作用。

RANSAC: RANdom SAmple Consensus 样本随机一致性

ransac是一种不确定的算法，只产生一个具有一定概率的合理结果，这取决于迭代次数(见max_trials参数)。它通常用于线性和非线性回归问题，特别是在摄影测量计算机视觉领域。

该算法将完整的输入样本数据分割成一组可能受到噪声影响的内联和异常值，这些异常值例如由错误的测量或无效的数据假设引起的。然后，只根据确定的内联函数来估计得到的模型。

d89c7d0fa30f

泰尔森回归：与ols相比，theil-sen是一种非参数方法，这意味着它不假设数据的潜在分布。由于theil-sen是一种基于中值的估计量，因此它对损坏的数据(也就是离群值)更为稳健。在单变量设置中，如果是简单的线性回归，Theil-Sen的崩溃点约为29.3%，这意味着它可以容忍高达29.3%的任意损坏数据。

由于theil-sen的计算复杂性，建议使用它只针对小问题的样本数量和特征。

d89c7d0fa30f

HuberRegressor与Ridge不同，因为它对分类为异常值的样本应用线性损失。如果样本的绝对误差小于某个阈值，则将该样本分类为内联样本。它不同于TheilsenRegressor和RansacRegressor，因为它不忽略异常值的影响，但给予它们较小的权重。

d89c7d0fa30f

d89c7d0fa30f

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。