深度学习
文章平均质量分 73
one-莫烦
keep going
展开
-
seq2seq模型
seq2seq的一些用法原创 2022-08-04 17:20:32 · 650 阅读 · 2 评论 -
你一定能看懂的tf.nn.bidirectional_dynamic_rnn()详解
bidirectional_dynamic_rnn的使用详解原创 2022-07-14 10:49:56 · 736 阅读 · 0 评论 -
肯定能让你看懂——tf.nn.max_pool和tf.nn.conv2d()
一文读懂文本中的卷积和池化操作原创 2022-07-13 15:26:32 · 266 阅读 · 0 评论 -
Batch Normalization 和 Dropout在训练和测试的不同
BN和Dropout在训练和测试时的不同原创 2022-06-23 19:06:19 · 427 阅读 · 0 评论 -
LSTM的参数量计算
LSTM里面的参数量转载 2022-06-22 18:36:02 · 2292 阅读 · 0 评论 -
一文读懂多分类的评价指标(微平均、宏平均、加权平均)
多分类下的评价标准原创 2022-06-22 17:23:10 · 2221 阅读 · 0 评论 -
最通俗易懂的BiLSTM-CRF模型中的CRF层介绍
背景知识你唯一需要了解的是什么叫命名实体识别。如果你不了解神经网络,CRF以及其他相关知识也没有关系,我会用通俗易懂的语言来解释清楚。1 简介在命名实体识别领域,基于神经网络的实现方法是非常流行和常用的。举个例子,该文讲述的用词嵌入和字嵌入的BiLSTM-CRF模型就是其中一种。我将以该模型为例解释CRF层的工作原理。开始之前我们规定在数据集中有两类实体,人名和组织机构名称。所以,其实在我们的数据集中总共有5类标签:B-Person (人名的开始部分)I- Person (人名的中间部分)B转载 2022-03-01 11:06:08 · 1506 阅读 · 1 评论 -
简单易懂的word2vec
Skip-gram 和 CBOW 模型如果是用一个词语作为输入,来预测它周围的上下文,那这个模型叫做『Skip-gram 模型』而如果是拿一个词语的上下文作为输入,来预测这个词语本身,则是 『CBOW 模型』Skip-gram 和 CBOW 的简单情形我们先来看个最简单的例子。上面说到, y 是 x 的上下文,所以 y 只取上下文里一个词语的时候,语言模型就变成:用当前词 x 预测它的下一个词 y但如上面所说,一般的数学模型只接受数值型输入,这里的 x 该怎么表示呢?显然不能用 Word2ve原创 2022-02-15 15:39:26 · 225 阅读 · 0 评论 -
优化器、优化算法Optimizer总结
1 梯度下降法1.1 批量梯度下降1.2 随机梯度下降特点是SGD的噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快,但是准确度下降,并不是全局最优。虽然包含一定的随机性,但是从期望上来看,它是等于正确的导数的。缺点:SGD 因为更新比较频繁,会造成 cost function 有严重的震荡。BGD 可以收敛到局部极小值,当然 SGD 的震荡可能会跳到更好的局部极小值处。选择合适的learning rate比较困难 ,学习率太低会收敛缓慢,学习率过高会原创 2022-02-10 15:25:44 · 232 阅读 · 0 评论 -
(几种归一化)一文读懂BN、LN、IN、GN
几种缩写分别对应Batch NormalizationLayer NormalizationInstance NormalizationGroup Normalization需要normalization的原因(1)深度学习包含很多隐含层,每层参数都会随着训练而改变优化,所以隐层的输入分布总会变化,会使得每层输入不再是独立同分布。这就造成,上一层数据需要适应新的输入分布,数据输入激活函数时,会落入饱和区,使得学习效率过低,甚至梯度消失。(2)深度学习会使激活输入分布偏移,落入饱和区,导致反原创 2022-01-14 18:02:28 · 1472 阅读 · 0 评论 -
DSSM双塔模型损失部分详解
DSSM是把句子映射为向量,利用距离公式来表示文本间的相似度。DSSM在信息检索,文本排序,问答,图片描述,机器翻译等由广泛应用。网络结构DSSM模型的整体结构图如图所示,Q代表Query信息,D表示Document信息。(1)Term Vector:表示文本的Embedding向量;(2)Word Hashing技术:为解决Term Vector太大问题,对bag-of-word向量降维;(3)Multi-layer nonlinear projection:表示深度学习网络的隐层;(4)原创 2021-12-31 10:45:50 · 2021 阅读 · 0 评论 -
一文读懂LSTM和GRU
简介LSTM与GRU原创 2021-12-08 11:42:48 · 2634 阅读 · 0 评论 -
Focal Loss解析
结论focal loss主要是解决了难易样本不均衡的问题,就是模型容易分类的样本多,不易分类的样本少,顺带还解决了一点样本不均衡的问题解析公式如下1. 类别权重为了应该样本不均衡的问题,对每个类别赋予不同的权重,可以使得模型关注的重点往样本少的类别倾斜。2. 难度权重对于容易分类的样本,我们希望他产生的损失少,比较难得样本就相反,其中Pt代表预测的概率,对于正例,我们希望P越接近1越好,带入会使得难度权重很低,如果模型表现得很差,p很小,此时的loss就会很大,让模型进行梯度更新,从而进行调原创 2021-12-07 18:03:40 · 645 阅读 · 0 评论 -
详解梯度消失、梯度爆炸及解决方法
1.反向传播2.原因对于激活函数sigmoid(x)求导之后tanh(x)总结本质上是因为神经网络的更新方法,梯度消失是因为反向传播过程中对梯度的求解会产生sigmoid导数和参数的连乘,sigmoid导数的最大值为0.25,权重一般初始都在0,1之间,乘积小于1,多层的话就会有多个小于1的值连乘,导致靠近输入层的梯度几乎为0,得不到更新。梯度爆炸是也是同样的原因,只是如果初始权重大于1,或者更大一些,多个大于1的值连乘,将会很大或溢出,导致梯度更新过大,模型无法收敛。转载 2021-12-07 16:45:47 · 204 阅读 · 0 评论 -
归一化VS标准化
简介归一化(normalization)标准化(standardization)其中μ和 σ 代表样本的均值和标准差,X(max)为最大值, X(min)为最小值。本质经过数学公式推导,其本质就是一种线性变换由于线性变化不会改变原始数据的排序,所以这也是归一化或者标准化work的一个重要的点。区别转换范围归一化(Normalization):把数据转换到(0,1)的数据范围标准化(Standardization):把数据转换到均值为0,标准差为1的数据映射方式数据分布归原创 2021-12-01 17:19:54 · 3091 阅读 · 0 评论 -
详解transformer
1.Transformer 整体结构首先介绍 Transformer 的整体结构,下图是 Transformer 用于中英文翻译的整体结构:可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下:第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来的Feature) 和单词位置的 Embeddi转载 2021-12-01 16:08:24 · 5427 阅读 · 1 评论 -
一文读懂残差神经网络
前言由于神经网络具有很强的拟合能力,我们期望训练一个很深的前馈神经网路,来完成任务。直观上看,更深的神经网络,在非线性激活函数的加持下,拥有更大的假设空间,因此当然“更有可能”包含了一个最优解。但是在实际使用时,训练又成了一个难题。除了过拟合问题以外,更深的神经网络会遇到如下两个难题,存在问题1.1 梯度消失爆炸问题以下图的反向传播为例,假设每一层只有一个神经元且对于每一层传播链为可以推导出而sigmoid的导数如下图由此可见导数的最大值为1/4,所以当w的初始化大或者小的时候,会使原创 2021-11-30 17:57:48 · 4315 阅读 · 0 评论 -
交叉熵损失函数VS均方差损失函数
均方差损失函数和交叉熵损失函数是比较常用的损失函数分类中常用交叉熵?MSE均方误差损失也是一种比较常见的损失函数,其定义为:Cross Entropy Loss Function二分类在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为P和 1-P ,此时表达式为:其中:yi—— 表示样本i的label,正类为 1,负类为0pi—— 表示样本i预测为正类的概率多分类多分类的情况实际上就是对二分类的扩展:其中:M——类别的数量yic——符号函数原创 2021-11-30 15:13:56 · 4643 阅读 · 1 评论 -
Bert一些重要函数的详解
记录一下embedding_lookup根据词的索引来获取embedding输入是[batch_size,seq_lenth] 输出[batch_size,seq_lenth,embeding_size]def embedding_lookup(input_ids, vocab_size, embedding_size=128, initializer_range=0.02原创 2021-11-26 14:32:31 · 1796 阅读 · 0 评论 -
tensorflow常用的api
常用的api做个记录,防止遗忘原创 2021-11-25 16:27:02 · 1518 阅读 · 0 评论 -
详解RNN的数据流程图以及梯度消失和爆炸的原因
RNN的梯度消失和一般深度学习的不同原创 2021-11-23 18:01:01 · 899 阅读 · 0 评论