Norm范数

最新推荐文章于 2023-03-22 20:57:29 发布

YingJingh

最新推荐文章于 2023-03-22 20:57:29 发布

阅读量344

点赞数

分类专栏：论文记录文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/Hekena/article/details/125924748

版权

论文记录专栏收录该内容

147 篇文章 9 订阅

订阅专栏

解决一个问题》：常用的L2正则化是什么？
L0 范数为神魔是NP-hard问题？
L0范式是什么?

常用范数

L0范数是指向量中非0的元素的个数
L1范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。
L2范数: ||W||2。它也不逊于L1范数，它有两个美称，在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫它“权值衰减weight decay”。

L1 norm就是绝对值相加，又称曼哈顿距离
L2 norm就是欧几里德距离
在这里插入图片描述
基于监督学习的目标函数：
其中，前一项是样本预测值与真实值之间的误差（最小化误差），后一项是正则化函数约束模型使其尽量简单（规范化参数）

转载：正则

为什么实现参数的稀疏？

 简化模型、避免过拟合；参数变少使模型具有更好的可解释性。

 在很多情况下，一个模型中真正重要的参数并不多，如果考虑所有参数均起作用，这样的模型只拟合了训练数据，对测试数据变得没有泛化能力。

为什么参数值越小模型越简单？

 越复杂的模型，越是会尝试对所有样本进行拟合，甚至包含了一些异常样本点，这种模型容易造成在较小的区间里预测值产生较大的波动，这个波动反映在区间里的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，参数值会很大。

————————————————
版权声明：本文为CSDN博主「Jasonus_Chou」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_32439303/article/details/71709408

1. L0正则化

    L0正则化的值是模型参数中非零参数的个数。

    使用L0正则可得到稀疏的参数以此来防止过拟合。从直观上看，利用非零参数的稀疏性可以进行特征选择实现特征稀疏。


    虽然L0正则优势很明显，但求解困难属于NP问题，因此一般情况下**引入L0正则的最近凸优化L1正则（方便求解）来近似求解并同样可实现稀疏效果。**

在这里插入图片描述

L1正则化（Lasso问题）

 L1正则化的值是各个参数的绝对值之和。

 **L1正则化之所以可以防止过拟合，是因为其范数是参数绝对值之和，而参数大小与模型复杂度成正比**，最小化L1范数可降低模型复杂度。

L2正则化（Ridge问题）

 L2正则化的值是各个参数的平方和的开方值。
 
 **L2正则使得参数中每个元素都很小接近于0（仅仅接近，但不为0），这就导致了所有参数都很小**，与L1类似得参数小则模型复杂度低，可有效防止过拟合。

Lasso 与 Ridge 对比

 Lasso 和 Ridge 问题可分别表示为如下：

 将模型空间限制在参数w的二维情况：

 在 (w1,w2) 平面上可以画出目标函数的等高线，而约束条件为平面上半径为C的一个规则化球（norm ball）：等高线与norm ball首次相交的地方就是最优解：


 从上图可知，**对于L1-ball，L1在和每个坐标轴相交的地方都有“角”出现，L1-ball有很大几率与L1交于四个角，即在坐标轴上相遇，因为坐标轴在某一维度为0，从而可以产生稀疏。而等高线与L2-ball相交在坐标轴的几率就很小了**。

在这里插入图片描述

    总结：L1趋向于产生少量特征，其它特征均为0；而L2会选择更多趋于0的特征。Lasso适合特征选择，Ridge适合规则化。

YingJingh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Norm范数

解决一个问题》常用的L2正则化是什么？L0范数为神魔是NP-hard问题？L0范式是什么?
复制链接

扫一扫

专栏目录

Norm范数

常用范数

1. L0正则化

“相关推荐”对你有帮助么？