深度学习进阶

Transformer

  1. MHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;
  2. 时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。

位置编码

  1. 正弦sinusoidal位置编码,是一种绝对位置编码,相对位置关系不明确;
  2. 旋转rotary位置编码,是一种相对位置编码,好处是相对位置关系更加明确;
  3. 学习learned位置编码

卷积

CNN

  1. 卷积核权值共享,因此具有平移不变性,减少参数量
  2. 为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。

图卷积和边缘卷积

图卷积

  1. 图卷积是在论文《Semi-supervised Classification with Graph Convolutional Networks》中提出来的;
  2. 图卷积的核心是X_i+1 = A X_i W,其中A是邻接矩阵,W是线性层;
  3. 图卷积是对节点进行特征计算,然后更新节点信息。

边缘卷积

  1. 边缘卷积是在论文《DGCNN : Dynamic Graph CNN for Learning on Point Clouds》中提出来的;
  2. 边缘卷积的核心是 X_i+1 = ei1 ~ ei2 ~ … ~ ein,其中e表示边缘特征,是对边连接的点的特征进行非线性变化得到的; ~ 表示一种具有排列不变性的操作,如max, mean, sum等;
  3. 边缘卷积是对边进行特征计算,然后更新节点信息。
  4. 边缘卷积Edge Conv和动态图卷积DGCNN不是一个东西:论文之所以用了边缘卷积,并把自己的称为动态图卷积,是因为进行边缘卷积之后,点在高维空间中的位置发生了变化,那么由k近邻得到的邻居节点也和上一层的邻居节点不一样了,导致图的连接关系不一样,所以叫动态图。

激活函数

sigmoid

  1. 经常用于分类场景,作为概率输出

relu

  1. 经常作为隐藏层激活函数,缓解梯度消失
  2. 为什么不能完全解决梯度消失:小于0的部分没有梯度,传播受限;

elu selu

  1. elu是在relu的负半轴用min(0, a*(exp(x) - 1))代替,elu的好处是让输出的平均值为0(是精确为0吗),这样能够更快速收敛;
  2. selu是在elu的基础上,额外x scale进行缩放,使得分布均值为0,方差为1。专业术语自归一化

损失函数

  1. 为什么会出现loss spike:loss spike是一种训练过程中loss突然猛烈增大的现象。可能原因是模型浅层参数和深层参数会形成依赖关系,但是一般浅层参数变化慢,深层参数变化快,当深层参数和浅层参数逐渐匹配后,loss逐渐减小;但是如果突然输入一个分布很不一样的训练数据,浅层参数有一定变化,导致下游数据分布变化较大,深层参数不匹配,导致模型突然出现较高loss。参考:https://blog.csdn.net/qq_27590277/article/details/135493299

循环神经网络

针对序列数据,如果使用标准神经网络,会有什么问题?

  1. 输入输出长度不等;

  2. 不同位置的特征无法共享。标准神经网络会把某个特定位置的特征记下来,但是序列数据更关注数据本身,而不是位置;(比如Harry在句子1的位置1,在句子2的位置4,但是Harry本身的特征没有变)

  3. 需要建立一个词表,建立单词与编码的联系。编码可以用数字或独热编码one-hot。

深度学习进阶自然语言处理是指在深度学习的基础上,更加深入地应用于自然语言处理领域的技术和方法。它主要包括以下几个方面的内容: 1. 词向量表示:深度学习进阶自然语言处理中,常用的一种技术是将词语表示为向量形式,以便于计算机进行处理。常见的词向量表示方法有Word2Vec、GloVe等。 2. 语言模型:语言模型是自然语言处理中的一个重要任务,它用于预测下一个词语或者句子的概率。深度学习方法可以通过使用循环神经网络(RNN)或者Transformer等模型来建立语言模型。 3. 序列标注:序列标注是指给定一个输入序列,为每个输入元素打上相应的标签。在自然语言处理中,常见的序列标注任务包括命名实体识别、词性标注等。深度学习方法可以通过使用条件随机场(CRF)或者长短时记忆网络(LSTM)等模型来解决序列标注问题。 4. 文本分类:文本分类是指将文本划分到不同的类别中。在自然语言处理中,常见的文本分类任务包括情感分析、垃圾邮件过滤等。深度学习方法可以通过使用卷积神经网络(CNN)或者循环神经网络(RNN)等模型来进行文本分类。 5. 机器翻译:机器翻译是指将一种语言的文本转换为另一种语言的文本。深度学习方法可以通过使用编码-解码模型,如循环神经网络(RNN)或者Transformer等模型来进行机器翻译。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值