Lesson 4 李宏毅

最新推荐文章于 2024-07-10 17:02:08 发布

FluffyUZi

最新推荐文章于 2024-07-10 17:02:08 发布

阅读量68

点赞数

分类专栏：李宏毅机器学习文章标签：自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DoomZone/article/details/119927002

版权

李宏毅机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

LESSON Four

1.problem

之前学的都是将问题化成一个由未知参数构成的向量，通过设计的model来输出

如果有一组好几个输入向量，比如输入是一个句子，那我们首先可以将之进行处理：

1. one-hot Encoding

将所有已知词汇用向量表示，向量和词汇量一致

2. Word Embedding

与第一种不同，多了词汇之间的管关联性（词性、词义等）

又比如声音信号、graph（图表）信号这种输入向量数目不好确定的，如果使用之前的网络结构会让参数不好确定或者产生model bias

输入一组向量的情况下，我们的输出又不一样，我们可能需要每一个vector对应一个label，一组vector对应一个label，或者这一组vector输进去我们不知道要得到多少label（由机器决定）

对于第一种（label == vector）：

+ Sequence Labeling

我们熟悉的一组中每一个vector都有一个label与之对应，如分类和回归问题，但是如果正常使用FC的话，会遇到一些问题，输入之间的关联性会被忽略，如果要考虑关联性的话，需要开一个window包含好几个有关联的vector，但是不可能同时考虑所有sequence的关联，那样参数过多，不仅运算量爆炸而且容易Overfitting，这时候就用到了Self-attention

而第二种就是之前讲过的回归或者分类问题，第三种是下节课。

2.Self-attention

多个vector关键的就是他们之间的关联性，下面是两种关联性计算方法：

其中可以看出几个W是未知参数。

接着分别计算出a_1与其他向量的关联系数\alpha_n'

最后通过W_v矩阵得到输出b

整个过程用矩阵乘法表示如下：

其中未知参数只有三个W需要通过训练得到，其他都是认为设定好的

3.Multi-head Self-attention

这个结构解决了向量之间关联性比较复杂的问题

解决办法就是对每一个向量的每一种关联性都要学习一组W，每一组都训练出来一个output，最后output构成一个向量乘上一个新的W_0矩阵，得到最后的输出，即该这个向量对应的label

4.Positional Encoding

这个结构解决了向量之间有位置信息的问题

对每一个输入向量都加上一个e_i，其还有各种网络生成办法，尚待研究完善，要多读文献

5.others

后面总结：具体问题具体分析，任何一个网络结构虽然都是针对某个问题或领域产生的，但是都不固定，只要对任务足够清晰，对结构足够了解，就可以自行决定合适的model和Network Structure

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lesson 4 李宏毅

LESSON Four1.problem之前学的都是将问题化成一个由未知参数构成的向量，通过设计的model来输出如果有一组好几个输入向量，比如输入是一个句子，那我们首先可以将之进行处理：1. one-hot Encoding 将所有已知词汇用向量表示，向量和词汇量一致2. Word Embedding 与第一种不同，多了词汇之间的管关联性（词性、词义等）又比如声音信号、graph（图表）信号这种输入向量数目不好确定的，如果使用之前的网络结构会让参数不好确定或者产生m...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。