深度学习_CQUPT-Wan的博客-CSDN博客

深度学习

关注

文章平均质量分 93

关注数：文章数：7 文章阅读量：10211 文章收藏量：37

作者: CQUPT-Wan

练习NLP两年半的云顶江流儿( ゜- ゜)つロ GitBlog：https://cqupt-wan.github.io/ 语雀：https://www.yuque.com/cqupt_wan

展开

Transformer详解

目录模型结构Attention放缩点积Attention（Scaled Dot-Product Attetion）多头Attention（Multi-Head Attention）Transformer中的Attention嵌入和Softmax位置编码使用Self-Attention的原因Transformer内部细节Encoder内部细节残差网络E...

原创 2019-10-30 15:45:06 · 3066 阅读 · 7 评论
Attention机制

目录Encoder-Decoder框架Soft-Attention模型Attention机制的本质思想Hard-Attention模型Local-Attention模型静态Attention模型Self-Attention机制为什么要引入Attention机制Attention机制有哪些Self-Attention在长距离序列中强大的原因Encoder-...

原创 2019-10-29 21:42:35 · 696 阅读 · 1 评论
正则化

目录Batch_Size需要Batch_Size的理由在合理范围内，增大Batch_Size好处盲目增大Batch_Size的坏处归一化归一化的作用归一化的类型批归一化BatchNormalization为什么需要归一化BN层及使用位置批归一化BN的优点批归一化BN的缺点批归一化算法流程Weight Normalizaition和Bat...

原创 2019-10-29 09:26:03 · 3821 阅读 · 0 评论
激活函数

目录为什么需要激活函数？为什么需要非线性激活函数常见的激活函数sigmoid激活函数tanh激活函数ReLU激活函数Leaky ReLU激活函数P-ReLU激活函数R-ReLU激活函数ELU激活函数Maxout激活函数SoftPlus激活函数softmax激活函数激活函数的性质选择激活函数为什么需要激活函数？1、激活函数可以引入非...

原创 2019-10-28 21:30:45 · 419 阅读 · 0 评论
深层神经网络难以训练的原因

目录梯度消失梯度爆炸权重矩阵的退化导致模型的有效自由度减少解决梯度消失的方法解决梯度爆炸的方法梯度消失梯度消失：前面隐藏层的学习速度显著低于后面隐藏层梯度消失的根本原因：梯度爆炸梯度爆炸的根本原因：当，前面的网络层比后面的网络层梯度变化更快。权重矩阵的退化导致模型的有效自由度减少参数空间中学习的退化速度减慢，导致减少了模型的有效维数；有效自由度减...

原创 2019-10-28 15:48:45 · 1602 阅读 · 0 评论
反向传播BP算法

目录反向传播的作用反向传播的公式推导误差反向传播输出层的权重参数更新隐藏层的权重参数更新输出层和隐藏层的偏置参数更新BP算法的四个核心公式BP反向传播算法流程反向传播解释梯度消失的原因反向传播的作用梯度下降法中需要利用损失函数对所有参数的梯度来寻找局部最小值点；而反向传播算法就是用于计算该梯度的具体方法，其本质是利用链式法则对每个参数求偏导。...

原创 2019-10-28 15:07:42 · 335 阅读 · 0 评论
过拟合和欠拟合

图解欠拟合和过拟合1）横轴为训练样本数量，纵轴为误差欠拟合：高偏差过拟合：高方差2）横轴为模型复杂度，纵轴为误差A：欠拟合；C：过拟合；B：模型正常3）横轴为正则项系数，纵轴为误差降低过拟合的方法1）重新清洗数据，数据不纯会导致过拟合，此类情况需要重新清洗数据2）数据增强（增加训练样本数量）图像：平移、旋转、缩放利用生成对抗网络（...

原创 2019-10-28 15:01:25 · 275 阅读 · 0 评论

深度学习

作者: CQUPT-Wan

Transformer详解

Attention机制

正则化

激活函数

深层神经网络难以训练的原因

反向传播BP算法

过拟合和欠拟合