Lesson 4 李宏毅

LESSON Four

1.problem

之前学的都是将问题化成一个由未知参数构成的向量,通过设计的model来输出

如果有一组好几个输入向量,比如输入是一个句子,那我们首先可以将之进行处理:

1. one-hot Encoding

   将所有已知词汇用向量表示,向量和词汇量一致

2. Word Embedding

   与第一种不同,多了词汇之间的管关联性(词性、词义等)

又比如声音信号、graph(图表)信号这种输入向量数目不好确定的,如果使用之前的网络结构会让参数不好确定或者产生model bias

输入一组向量的情况下,我们的输出又不一样,我们可能需要每一个vector对应一个label,一组vector对应一个label,或者这一组vector输进去我们不知道要得到多少label(由机器决定)

对于第一种(label == vector):

+ Sequence Labeling

  我们熟悉的一组中每一个vector都有一个label与之对应,如分类和回归问题,但是如果正常使用FC的话,会遇到一些问题,输入之间的关联性会被忽略,如果要考虑关联性的话,需要开一个window包含好几个有关联的vector,但是不可能同时考虑所有sequence的关联,那样参数过多,不仅运算量爆炸而且容易Overfitting,这时候就用到了Self-attention

而第二种就是之前讲过的回归或者分类问题,第三种是下节课。

2.Self-attention

多个vector关键的就是他们之间的关联性,下面是两种关联性计算方法:

其中可以看出几个W是未知参数。

接着分别计算出a_1与其他向量的关联系数\alpha_n'

 最后通过W_v矩阵得到输出b

 整个过程用矩阵乘法表示如下:

其中未知参数只有三个W需要通过训练得到,其他都是认为设定好的

3.Multi-head Self-attention

这个结构解决了向量之间关联性比较复杂的问题

解决办法就是对每一个向量的每一种关联性都要学习一组W,每一组都训练出来一个output,最后output构成一个向量乘上一个新的W_0矩阵,得到最后的输出,即该这个向量对应的label

4.Positional Encoding

这个结构解决了向量之间有位置信息的问题

对每一个输入向量都加上一个e_i,其还有各种网络生成办法,尚待研究完善,要多读文献

5.others

后面总结:具体问题具体分析,任何一个网络结构虽然都是针对某个问题或领域产生的,但是都不固定,只要对任务足够清晰,对结构足够了解,就可以自行决定合适的model和Network Structure

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值