LESSON Four
1.problem
之前学的都是将问题化成一个由未知参数构成的向量,通过设计的model来输出
如果有一组好几个输入向量,比如输入是一个句子,那我们首先可以将之进行处理:
1. one-hot Encoding
将所有已知词汇用向量表示,向量和词汇量一致
2. Word Embedding
与第一种不同,多了词汇之间的管关联性(词性、词义等)
又比如声音信号、graph(图表)信号这种输入向量数目不好确定的,如果使用之前的网络结构会让参数不好确定或者产生model bias
输入一组向量的情况下,我们的输出又不一样,我们可能需要每一个vector对应一个label,一组vector对应一个label,或者这一组vector输进去我们不知道要得到多少label(由机器决定)
对于第一种(label == vector):
+ Sequence Labeling
我们熟悉的一组中每一个vector都有一个label与之对应,如分类和回归问题,但是如果正常使用FC的话,会遇到一些问题,输入之间的关联性会被忽略,如果要考虑关联性的话,需要开一个window包含好几个有关联的vector,但是不可能同时考虑所有sequence的关联,那样参数过多,不仅运算量爆炸而且容易Overfitting,这时候就用到了Self-attention
而第二种就是之前讲过的回归或者分类问题,第三种是下节课。
2.Self-attention
多个vector关键的就是他们之间的关联性,下面是两种关联性计算方法:
其中可以看出几个W是未知参数。
接着分别计算出a_1与其他向量的关联系数\alpha_n'
最后通过W_v矩阵得到输出b
整个过程用矩阵乘法表示如下:
其中未知参数只有三个W需要通过训练得到,其他都是认为设定好的
3.Multi-head Self-attention
这个结构解决了向量之间关联性比较复杂的问题
解决办法就是对每一个向量的每一种关联性都要学习一组W,每一组都训练出来一个output,最后output构成一个向量乘上一个新的W_0矩阵,得到最后的输出,即该这个向量对应的label
4.Positional Encoding
这个结构解决了向量之间有位置信息的问题
对每一个输入向量都加上一个e_i,其还有各种网络生成办法,尚待研究完善,要多读文献
5.others
后面总结:具体问题具体分析,任何一个网络结构虽然都是针对某个问题或领域产生的,但是都不固定,只要对任务足够清晰,对结构足够了解,就可以自行决定合适的model和Network Structure