深度学习
烟雨人长安
空气,水,食物,书是生命中必不可少的四项事物!
展开
-
A Graph Transformer Model for Next Point-of-Interest Recommendation 论文解析
原创 2024-01-24 10:41:59 · 503 阅读 · 0 评论 -
面试问题:标签平滑是什么?有什么用?
一、标签平滑是什么?机器学习的样本中通常会存在少量错误标签,这些错误标签会影响到预测的效果。标签平滑采用如下思路解决这个问题:在训练时即假设标签可能存在错误,避免“过分”相信训练样本的标签。当目标函数为交叉熵时,这一思想有非常简单的实现,称为标签平滑(Label Smoothing)。我们以2类分类问题为例,此时训练样本为(xi,yi),其中yi是样本标签,为0或1。在训练样本中,我们并不...原创 2020-04-06 15:47:08 · 2417 阅读 · 2 评论 -
为什么Bert的三个Embedding可以进行相加?
这个问题是知乎的这个问题:为什么Bert的三个Embedding可以进行相加?我觉得解释合理的是这个回答,这个回答解释的是相加的意义这里的相加是特征交叉而不是特征池化。神经网络中相加是构造特征交互的方法,类似的还有elementwise乘,减法。Bert这类的方法一个极大的优势就是通过BPT和字级别把词向量空间的稀疏性压缩下来,如果你在普通的embedding+nn里做这件事情,...原创 2020-03-17 17:54:13 · 1771 阅读 · 0 评论 -
Dropout为什么解决过拟合,以及Dropout的缺点
Dropout为什么解决过拟合:(1)取平均的作用:先回到标准的模型即没有 dropout,我们用相同的训练数据去训练 5 个不同的神经网络,一般会得到 5 个不同的结果,此时我们可以采用 “5 个结果取均值” 或者 “多数取胜的投票策略” 去决定最终结果。例如 3 个网络判断结果为数字 9, 那么很有可能真正的结果就是数字 9,其它两个网络给出了错误结果。这种 “综合起来取平均” 的策略通...原创 2020-03-14 17:53:04 · 5398 阅读 · 1 评论 -
自然语言处理中一些常用的数据增强的方式
1. 加噪声。加噪尤以去信息为主(Dropout)。比如随机扔词(每次扔一类词,每次扔一个词),比如随机在 Embedding 上 dropout(这个几乎所有 Neural Model 都加了)。有结构的 Dropout 也就是所谓的 Mask,即使用带权的 mask来遮盖掉一些词。2.同义词替换。我们可以随机的选择一些词的同义词来替换这些词,比如:“她非常美丽” 改为 “她非常漂亮”...原创 2020-03-14 17:43:09 · 1182 阅读 · 0 评论 -
深度可分离卷积的解释
假设有一个 3×3 大小的卷积层,其输入通道为 16、输出通道为 32,通常的做法是用 32 个 3×3 的卷积核来分别同输入数据卷积,这样每个卷积核需要 3×3×16 个参数,得到的输出是只有一个通道的数据。参数量为:(3×3×16)×32 =4068深度可分离卷积的做法:1)用 16 个 3×3 大小的卷积核(1 通道)即每个卷积核大小为3*3*1,分别与输入的 16 通道的数据...原创 2020-03-14 17:31:48 · 2044 阅读 · 0 评论 -
面试问题:1×1卷积的作用
一维卷积通常用于序列模型中,所以在自然语言处理中,通常使用的是一维卷积。1、升维和降维,通常将一维卷积当做全连接使用2、加入非线性。卷积层之后经过激励层,1*1 的卷积在前一层的学习表示上添加了非线性激励( non-linear activation ),提升网络的表达能力;3、跨通道信息交互(channal 的变换)第一点说的升维和降维通常是通道间的变换,3*3,64channels...原创 2020-03-14 16:18:23 · 531 阅读 · 0 评论