机器学习算法之正则化

最新推荐文章于 2022-06-10 22:33:14 发布

刚搬完砖

最新推荐文章于 2022-06-10 22:33:14 发布

阅读量4.1k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011467621/article/details/49888467

版权

本文探讨了机器学习中的正则化技术，以防止过拟合，提高模型的泛化能力。主要介绍了L1和L2两种正则化方法，并解释了它们在迭代优化过程中的更新公式。在在线优化方面，讨论了简单截断法和截断梯度法（TG），以应对在线模式下实现稀疏特征的需求。这两种方法在更新规则上有所不同，TG通过引入参数α来平滑截断过程。

摘要由CSDN通过智能技术生成

>By joey周琦

正则化

假设目标函数为 $J$ , 比如 $J$ 可以是对数似然函数的负数形式，特征 $i$ 的系数为 $w_i$ , 系数向量 $w = [w_1,...,w_K]$ ,假设一共有 $K$ 个备选类。机器学习（分类为例）的目标就是要解决一个优化问题

w = arg min w L (w)

$w = \arg \min \limits_w L(w)$

而为了避免模型的过拟合(overfitting), 所以需要在这里进行正则化（regularization）[2]。正则化的主要思想就是控制系数 $|w|$ 的大小，从而控制模型的复杂度，减小过拟合，提高泛化能力，常见的正则化选择有一阶和二阶，如下
二阶(L2)：

w = arg min w L (w) + α / 2 \sum k = 1 K w 2 k

$w =\arg \min \limits_w L(w) + \alpha/2 \sum \limits_{k=1}^K w_k^2$

一阶(L1)：

w = arg min w L (w) + α \sum k

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

刚搬完砖 CSDN认证博客专家 CSDN认证企业博客

码龄11年

49: 原创

7万+: 周排名

174万+: 总排名

31万+: 访问

: 等级

2466: 积分

112: 粉丝

80: 获赞

31: 评论

196: 收藏

私信

关注

热门文章

分类专栏

机器学习 18篇
数据挖掘 9篇
python 3篇
统计学 2篇
推荐系统 1篇
kaggle 1篇
笔记 2篇
思考 1篇
代码 2篇
自然语言处理 2篇

最新评论

Permutation Test 置换检验(转）
hypergq: 我也有上面同样的疑问，我用两组真实的数据得到了一个真实的差，我再随机打乱他们得到更多的随机差，这些随机的差有什么意义呢？并不能反应我的数据的真实情况啊？即使我的真实差不在随机差的前5%，但他是真实结果得到的啊，有没有人能解释一下
在pytorch中load超大训练数据
aptx4869ldz: 请问博主思路一中内存依然不断上升的原因找到了吗？是为什么呢？我也遇到了同样的问题，求解，谢谢！
Dummy variable (变量dummy化）
沈悠闲: 通俗易懂
Permutation Test 置换检验(转）
萝卜丝皮尔: 一般来说，P值小于0.05会拒绝原假设。至于文章里的均值差异，是文章定义的检验统计量，也可以定义为两组数据的中位数差值作为检验统计量等的。个人乱说的~
Permutation Test 置换检验(转）
萝卜丝皮尔: 校正之后的p值偏大，我猜，这样就可以更充分地拒绝原假设了（如果能够拒绝的话）。因为被调大的P值还小于显著性水平，那么真实数据构造出来的P值更小于显著性水平。个人乱猜的~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。