Normalization在CTR问题中的迷之效果

最近看到一篇文章非常有意思的文章, 是关于正则化的探讨, 作者发现在不同阶段对数据进行不同的正则化操作会有非常大的影响,在正确的位置进行正确的正则化操作可以为模型带来巨大的提升

v2-071e132c7353c2be34deb925be1bf617_b.jpg
一元@炼丹笔记

本文一共两块内容,

第一块介绍LayerNorm以及BatchNorm的联系&区别;

第二块则专注于介绍论文的内容,该篇论文是基于实践经验的,

个人觉得非常值得一试。

  1. LayerNorm 和 BatchNorm的介绍;
  2. 论文的解读

关于LayerNorm & BatchNorm

BatchNorm

BatchNorm是对一批样本进行处理, 对一批样本的每个特征分别进行归一化,举个简单的例子,加入我有一批样本, 每个样本有三个特征,,分别是身高,体重,年龄,那么我做归一化的时候,就是对体重做归一化,对身高做归一化,对年龄做归一化,三者之间不会有交叉影响。

v2-fff469028b750a31598e272fd99968c3_b.jpg

这个看起来很符合直观的感觉,可以看做是降低每个特征量纲的影响,我们也经常会在CTR等深度模型的MLP部分见到BatchNorm操作。

也正因为如此,

所以BatchNorm会受到Batch size的影响;

当Batchsize小的时候效果往往不是非常稳定.

LayerNorm

LayerNorm是对一个样本进行处理, 对一个样本的所有特征进行归一化,乍一看很没有道理,因为如果对身高体重和年龄一起求一个均值方差,都不知道这些值有什么含义,但存在一些场景却非常有效果--NLP领域。

v2-2fde3f1da918cf79fabb2df348ac8f39_b.jpg

在NLP中,N个特征都可能表示不同的词,这个时候我们仍然采用B

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值