L2 norm,BatchNorm,损失函数和激活函数

 

对于机器学习 深度学习中的一些常见知识 L2 norm,BatchNorm,损失函数和激活函数 总结:

L1 norm就是绝对值相加,又称曼哈顿距离; L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。
L2 norm就是欧几里德距离之和。(应用广泛)它也不逊于L1范数,它有两个美称,在回归里面,有人把有它的回归叫“岭回归”(Ridge Regression),有人也叫它“权值衰减weight decay”。这用的很多吧,因为它的强大功效是改善机器学习里面一个非常重要的问题:过拟合。

机器学习中正则化项L1和L2的直观理解 - 小平子的专栏 - CSDN博客  https://blog.csdn.net/jinping_shi/article/details/52433975

Differences between L1 and L2 as Loss Function and Regularization  http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/

机器学习中的范数规则化之(一)L0、L1与L2范数 - zouxy09的专栏 - CSDN博客  https://blog.csdn.net/zouxy09/article/details/24971995

机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。BatchNorm的基本思想:能不能让每个隐层节点的激活输入分布固定下来呢?这样就避免了“Internal Covariate Shift”问题了。

可参考https://www.cnblogs.com/guoyaohua/p/8724433.html

一位网友的回答,在这里分享下:Relu、BN还是resNet,都是从不同角度来解决随着网络层数加深而导致学习速度减慢的。并不是说如果采用Relu激活BN就没有意义了,BN的算法的核心思想是“Reducing Internal Covariate Shift”减小内部协方差偏移的,无论使用什么激活函数,随着网络层数的加深都会产生内部协方差偏移,这样也就会导致网络学习速度减慢,而Batch Norm就是解决这个问题的。而本文中所提到的Sigmoid只是从另一个角度来分析BN的作用而已,并不是说BN只能依靠Sigmoid、tanh等激活函数才能发挥作用。

https://blog.csdn.net/computerme/article/details/80836060  tensorflow batch_normalization的正确使用姿势

深度神经网络(DNN)损失函数和激活函数的选择 - 刘建平Pinard - 博客园  http://www.cnblogs.com/pinard/p/6437495.html

https://zhuanlan.zhihu.com/p/22142013深度学习中的激活函数导引

小白都能看懂的softmax详解 - bitcarmanlee的博客 - CSDN博客  https://blog.csdn.net/bitcarmanlee/article/details/82320853

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: L2范数(Euclidean norm)是一个用来衡量向量长度的概念,可以用来计算连续函数的L2范数公式如下: 设有一个连续函数f(x),定义在区间[a, b]上。要计算该函数的L2范数,可以按照以下步骤进行: 1. 首先将区间[a, b]分成n个子区间,每个子区间的长度为Δx = (b-a)/n。 2. 在每个子区间中选择一个点xi,其中i的取值范围是[1, n]。可以选择左端点、右端点或者中点作为xi。 3. 计算函数f(x)在每个xi处的值,即f(xi)。 4. 计算每个子区间上的函数值的平方和,即Σ[f(xi)]^2。 5. 对平方和进行累加,并将Δx也累加。最后计算累加和的平方根,即得到函数f(x)的L2范数。 数学表示为: ||f||₂ = sqrt(Σ[f(xi)]^2 * Δx) 其中,sqrt表示平方根运算。 通过这样的计算,我们可以得到函数f(x)在区间[a, b]上的L2范数。这个结果可以用来衡量函数在该区间上的振幅大小。 需要注意的是,计算L2范数时,选择的子区间数n越大,计算结果越准确。通过增加n的值,可以提高计算结果的精度。同时,在选择xi的过程中,根据实际情况选择适当的方法,例如使用等距离取点法或者高斯取点法等。 ### 回答2: L2 范数,也被称为欧几里得范数,是向量空间中的一个重要概念。在连续函数中,计算 L2 范数的公式如下: 对于一个定义在闭区间 [a, b] 上的连续函数 f(x),其 L2 范数表示为: ||f(x)||₂ = (∫[a, b] |f(x)|² dx)^(1/2) 其中 ∫ 表示积分运算,[a, b] 表示积分的区间范围。|f(x)| 表示 f(x) 的绝对值。 计算 L2 范数的方法是,首先计算 f(x) 的平方,然后对其进行积分,最后取积分结果的平方根。这样可以保证范数为非负数。 例如,如果我们要计算在区间 [0, 1] 上的连续函数 f(x) = x² 的 L2 范数,可以进行如下计算: ||f(x)||₂ = (∫[0, 1] |x²|² dx)^(1/2) = (∫[0, 1] x^4 dx)^(1/2) = (∫[0, 1] x^4 dx)^(1/2) = (∫[0, 1] x^4 dx)^(1/2) = (1/5)^(1/2) = 1/√5 因此,函数 f(x) = x² 在区间 [0, 1] 上的 L2 范数为 1/√5。 总结起来,连续函数的 L2 范数计算公式是对函数的绝对值进行平方积分,再取积分结果的平方根。根据具体问题和积分范围的不同,计算具体的 L2 范数值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值