机器学习--自注意力机制1 引入

ちゆきー

已于 2024-02-28 21:46:25 修改

阅读量832

点赞数 25

分类专栏：机器学习文章标签：机器学习人工智能

于 2024-02-28 20:40:32 首次发布

本文链接：https://blog.csdn.net/projectfailed/article/details/136350674

版权

机器学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

本文介绍了如何处理网络输入为序列且长度可变的情况，包括独热编码和词嵌入等向量表示方法，以及针对不同类型输出（如词性标注、情感分析和序列到序列任务）的应用实例。讨论了音频和图数据的处理方式，并以语音识别和翻译为例，阐述了序列到序列任务的特点。

摘要由CSDN通过智能技术生成

一、输入为序列的情况

截至目前，我们讨论的都是网络的输入为一个向量的情况，
如果是回归问题，输出是一个标量，
如果是分类问题，输出是一个类别。
在这里插入图片描述

当输入是一组向量，并且输入的向量的数量是会改变的，即每次模型输入的序列长度都不一样，这个时候应该要怎么处理呢？
在这里插入图片描述
下面我们举例说明：

1.文字处理

假设网络的输入是一个句子，把句子里面的每一个词汇都描述成一个向量，用向量来表示，模型的输入就是一个向量序列，而且该向量序列的大小每次都不一样（句子的长度不一样，向量序列的大小就不一样）。

（1）独热编码

将词汇表示成向量最简单的做法是独热编码（之前多次提到的，只有对应维度为1，其余维度都是0），创建一个很长的向量，该向量的长度跟世界上存在的词汇的数量是一样多的，每一个维度对应到一个词汇。
在这里插入图片描述

但是这种表示方法有一个非常严重的问题，它假设所有的词汇彼此之间都是没有关系的。cat 和 dog 都是动物，它们应该比较像；cat 是动物，apple 是植物，它们应该比较不像。但从独热向量中不能看到这件事情，其里面没有任何语义的信息

（2）.词嵌入（word embedding）也可将词汇表示成向量。

词嵌入使用一个向量来表示一个词汇，而这个向量是包含语义信息的。如果把词嵌入画出来，所有的动物可能聚集成一团，所有的植物可能聚集成一团，所有的动词可能聚集成一团等等。词嵌入会给每一个词汇一个向量，而一个句子就是一组长度不一的向量。
在这里插入图片描述

2.音频处理

我们会把一段声音信号取一个范围，这个范围叫做一个窗口（window），把该窗口里面的信息描述成一个向量，这个向量称为一帧（frame）。
通常这个窗口的长度就是 25 毫秒。
为了要描述一整段的声音信号，我们会把这个窗口往右移一点，通常移动的大小是 10 毫秒。（前人尝试了大量可能的值，这样得到的结果往最理想。）
一段声音信号就是用一串向量来表示，窗口往右移都是移动10毫秒，所以一秒钟的声音信号有100个向量，一小段的声音信号，它里面包含的信息量其实是非常可观的，所以声音信号也是一堆向量。
在这里插入图片描述

3.图处理

社交网络是一个图，在社交网络上面每一个节点就是一个人。每一个节点可以看作是一个向量。每一个人的简介里面的信息（性别、年龄、工作等等）都可以用一个向量来表示。所以一个社交网络可以看做是一堆的向量所组成的。

二、三种输出类型

类型 1：输入与输出数量相同

模型的输入是一组向量，输出有三种可能性，第一种可能性是每一个向量都有一个对应的标签。在类型 1 的问题里面，输入跟输出的长度是一样的。模型不需要去烦恼要输出多少的标签，输出多少的标量。
在这里插入图片描述
什么样的应用会用到第一种类型的输出呢？
举个例子在文字处理上，假设我们要做的是词性标注（Part-Of-Speech tagging，POS tagging）。机器会自动决定每一个词汇的词性，判断该词是名词还是动词还是形容词等等。这个任务并不是很容易，举个例子，现在有一个句子：I saw a saw，这句话的意思是我看到一个锯子，第二个 saw 是名词锯子。所以机器要知道，第一个 saw 是个动词，第二个 saw 是名词，每一个输入的词汇都要有一个对应的输出的词性。这个任务就是输入跟输出的长度是一样的情况，属于第一个类型的输出。
如果是语音，一段声音信号里面有一串向量。每一个向量都要决定它是哪一个音标。这个任务也是输入跟输出的长度是一样的情况，属于第一个类型的输出。
在这里插入图片描述

类型 2：输入是一个序列，输出是一个标签

举例而言，比如情感分析。情感分析就是给机器看一段话，模型要决定说这段话是积极的（positive）还是消极的（negative）。给定一整个句子，只需要一个标签（积极的或消极的）。如果是语音，机器听一段声音，再决定是谁讲的这个声音。
在这里插入图片描述

类型 3：序列到序列

第 3 个可能的输出：我们不知道应该输出多少个标签，机器要自己决定输出多少个标签。输入是 N 个向量，输出可能是 N′ 个标签。N′ 是机器自己决定的。这种任务又叫做序列到序列的任务。翻译就是序列到序列的任务，因为输入输出是不同的语言，它们的词汇的数量本来就不会一样多。比如我们熟悉的语音转文字，输出一段文字，其实也是一个序列到序列的任务。
在这里插入图片描述

ちゆきー

关注

25
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
机器学习--自注意力机制1 引入

截至目前，我们讨论的都是网络的输入为一个向量的情况，如果是回归问题，输出是一个标量，如果是分类问题，输出是一个类别。当输入是一组向量，并且输入的向量的数量是会改变的，即每次模型输入的序列长度都不一样，这个时候应该要怎么处理呢？
复制链接

扫一扫