深度学习技巧
文章平均质量分 89
深度学习技巧
shadowismine
这个作者很懒,什么都没留下…
展开
-
TDNN方法学习
输入:每个特征图表示一帧,特征图的通道数为24,表示一帧的特征数(原文是24维fbank特征),特征图的分辨率是1,在这里需要明确:语音是1维数据,因此特征图并不是二维图,而是一个值,24个特征图堆叠起来构成24维fbank特征。其中,dilation=1表示标准卷积,frame2的膨胀卷积需要设置dilation=2。x-vector的网络结构。原创 2023-10-12 08:46:45 · 225 阅读 · 0 评论 -
LSTM 与 GRU
RNN无法处理长距离依赖问题,通俗点就是不能处理一些较长的序列数据,那么今天就来介绍一下两个能处理长距离依赖问题地RNN变种结构,LSTM和GRU。原创 2023-10-23 23:45:32 · 631 阅读 · 0 评论 -
Transformer详解学习
拼接相加都可以,只是本身词向量的维度512维就已经蛮大了,再拼接一个512维的位置向量,变成1024维,这样训练起来会相对慢一些,影响效率。两者的效果是差不多地,既然效果差不多当然是选择学习习难度较小的相加了。Transformer 的 Decoder的输入与Encoder的输出处理方法步骤是一样地,一个接受source数据,一个接受target数据,对应到上面例子里面就是:Encoder接受英文"Tom chase Jerry",Decoder接受中文"汤姆追逐杰瑞"。原创 2023-10-24 13:56:48 · 210 阅读 · 0 评论 -
L1和L2正则化通俗理解
机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 和 L2 正则化。原创 2023-11-02 15:43:36 · 1720 阅读 · 0 评论 -
相似度计算方法
余弦相似度(Cosine Similarity)是n维空间中两个n维向量之间角度的余弦。它等于两个向量的点积(向量积)除以两个向量长度(或大小)的乘积。原创 2023-10-27 14:28:57 · 430 阅读 · 0 评论 -
循环神经网络(Recurrent Neural Network)
上图是一幅全连接神经网络图,我们可以看到输入层-隐藏层-输出层,他们每一层之间是相互独立地,(框框里面代表同一层),每一次输入生成一个节点,同一层中每个节点之间又相互独立的话,那么我们每一次的输入其实跟前面的输入是没有关系地。这样在某一些任务中便不能很好的处理序列信息。什么是序列信息呢?通俗理解就是一段连续的信息,前后信息之间是有关系地,必须将不同时刻的信息放在一起理解。比如一句话,虽然可以拆分成多个词语,但是需要将这些词语连起来理解才能得到一句话的意思。原创 2023-10-23 22:38:35 · 753 阅读 · 1 评论 -
Attention 机制
上图不再只有一个单一的语义编码C,而是有多个C1,C2,C3这样的编码。当我们在预测Y1时,可能Y1的注意力是放在C1上,那咱们就用C1作为语义编码,当预测Y2时,Y2的注意力集中在C2上,那咱们就用C2作为语义编码,以此类推,就模拟了人类的注意力机制。那么现在只剩下一个问题就是怎么计算出C1,C2,C3…Cn呢?如何判断我每次在做解码的时候注意力应该放在哪个位置呢?原创 2023-10-24 10:40:16 · 51 阅读 · 0 评论 -
目标函数(Objective Function)、损失函数(Loss Function)与代价函数(Cost Function)
损失函数(Loss Function)指在单个样本上的损失,代价函数(Cost Function)指在整个集合上所有样本损失的平均值,目标函数(Objective Function)指整体优化目标,可能包含额外的正则化项。代价函数(Cost Function)和损失函数(Loss Function)通常是一个意思,但有些作者对两者做出了明显的区分:损失函数的计算目标是单个样本 x,而代价函数的计算目标是一组样本。因此,大部分距离度量函数都能够作为损失函数,而选择不同的损失函数也有各自的优缺点。原创 2023-10-26 11:13:17 · 1080 阅读 · 0 评论