神经网络架构
。
m0_37709767
这个作者很懒,什么都没留下…
展开
-
损失函数 -交叉熵损失函数
一、相关知识 1)熵:即衡量信息不确定性的大小 2)交叉熵:真实标签与预测标签之间的不同(越不同,包含的信息量越大,即熵越大) 3)损失函数:Loss(y_pred,y_ture) 二、交叉熵损失函数 -交叉熵损失函数:评估label和predicts之间的差距(熵越小即两者越接近) 计算公式: q——表示预测样本分布 p——表示真实样本分布 在具体分类中: y——表示样本的label,正类为1,负类为0 p——表示样本预测为正的概率 参考文献: 1)https://zhuanlan.zhihu.原创 2020-05-29 16:18:52 · 487 阅读 · 0 评论 -
checkpoint文件的作用
翻译自网址:https://blog.floydhub.com/checkpointing-tutorial-for-tensorflow-keras-and-pytorch/ 定义:在模型生成的过程中,用来记录关键点的文件,例如在游戏打boss前需要存游戏进度一样。 checkpoint文件包含的内容: 1)模型的结构(architecture),在模型重建时起到关键作用 2)模型的权重(weight) 3)训练的参数(loss,optimizer,epochs等) 4)优化器的状态,允许在您停止的地方翻译 2020-05-12 11:57:11 · 3258 阅读 · 0 评论 -
Attention机制
参考:1)https://jalammar.github.io/illustrated-transformer/ 一、Attention机制的引入背景 Recurrent神经网络的ht需要ht-1和t进行计算生成hidden,无法并行处理。当句子长度较长时,耗费的计算力太大,且例如RNN等模型会发生长程的梯度消失,造成长序列到定长向量转化而造成的信息损失的瓶颈。 二、模型整体架构 模型包含两个重要的组成部分:1)encoders(编码组件); 2)decoders (解码组件) 编码组件和解码组件分别包含翻译 2020-05-27 10:44:15 · 384 阅读 · 0 评论