自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Transformer模型

在Transformer模型中,注意力头数为h,嵌入向量和隐藏状态维度均为d,那么一个多头注意力层所含的参数量是4hd^2。 此话为错:层归一化对一个中间层的所有神经元进行归一化。 批归一化(Batch Normalization)才是对每个神经元的输入数据以mini-batch为单位进行汇总。 ...

2020-02-18 18:31:31 370 1

原创 卷积神经网络进阶-计算题分享

通道数为3,宽高均为224的输入,经过一层输出通道数为96,卷积核大小为11,步长为4,无padding的卷积层后,得到的feature map的宽高为()? 答案:{(224−11)/4} +1=54 ...

2020-02-18 18:27:00 1196

原创 循环神经网络进阶错题总结

此话为错:深层循环网络能有效抽取更高层更抽象的信息,层数越深效果越好。 层数越深效果未必越好,层数的加深会导致模型的收敛变得困难 此话为对:第0个循环单元的记忆细胞和循环单元的值不需要初始化。 每个循环单元中的记忆细胞和循环单元的值为LSTM模型中的隐状态,而非参数,因此不需要初始化。 ...

2020-02-18 18:21:37 337

原创 循环神经网络中困惑度(perplexity)

最佳情况下,模型总是把标签类别的概率预测为1,此时困惑度为1; 最坏情况下,模型总是把标签类别的概率预测为0,此时困惑度为正⽆无穷; 基线情况下,模型总是预测所有类别的概率都相同,此时困惑度为类别个数 所以任何一个有效模型的困惑度必须小于类别个数 ...

2020-02-14 18:06:59 648

原创 PyTorch tensor和Tensor区别

tensor建立的数据类型为括号内输入的类型, Tensor建立的类型,如无特殊,默认为float类型;可通过在Tensor前加限制来更改类型,如IntTensor, LongTensor。

2020-02-14 15:39:58 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除