机器学习
Thomas_He666
在读研究生
展开
-
Batch Normalization和Dropout如何搭配使用?
Batch Normalization和Dropout如何搭配使用?背景分析解决方案参考资料背景众所周知,在Batch Normalization(BN)出来之前,dropout是训练神经网络时的标配,如果你的数据不够多,那么模型很容易过拟合,导致模型的性能下降。Dropout在很多任务上证明了自己的有效性,比如图片分类,语音识别,目标检索等等。但是在BN提出之后,dropout突然失宠了,原...原创 2019-12-20 16:57:40 · 12766 阅读 · 0 评论 -
信息熵、交叉熵与KL散度
信息量在信息论与编码中,信息量,也叫自信息(self-information),是指一个事件所能够带来信息的多少。一般地,这个事件发生的概率越小,其带来的信息量越大。从编码的角度来看,这个事件发生的概率越大,其编码长度越小,这个事件发生的概率越小,其编码长度就越大。但是编码长度小也是代价的,比如字母’a’用数字‘0’来表示时,为了避免歧义,就不能有其他任何以‘0’开头的编码了。因此,信息量定义如...原创 2019-01-18 11:18:01 · 1454 阅读 · 0 评论