【Python机器学习】序列到序列建模——实际应用

zhangbin_237

于 2024-09-17 18:59:33 发布

阅读量141

点赞数 3

分类专栏： Python机器学习文章标签：机器学习人工智能 python 开发语言自然语言处理

本文链接：https://blog.csdn.net/weixin_39407597/article/details/142317343

版权

Python机器学习专栏收录该内容

216 篇文章 1 订阅

订阅专栏

序列到序列网络非常适合所有具有可变长度输入序列或可变长度输出序列的机器学习应用。由于自然语言的词序列几乎总是有不可预测的长度，因此序列到序列模型可以提高大多数机器学习模型的精确率。

目前序列到序列结构的主要应用有：

聊天机器人对话；
问答系统；
机器翻译；
图像描述；
可视化问答；
文档摘要

对话系统是NLP领域的一个常见应用。序列到序列模型是生成式的，这使它特别适合应用于对话系统（聊天机器人）。序列到序列的聊天机器人可以生产比信息检索或基于知识的聊天机器人更多样、更具创造性和更口语化的对话。对话系统模拟人类在多类主题上的对话。序列到序列的聊天机器人可以从限定领域的语料库中进行泛化学习，但对其训练集中不包含的主题也可以做出合理的相应。相反，基于知识的对话系统的“基础”会限制它们参与训练数据之外主题的对话的能力。

序列到序列网络的另一个常见应用是机器翻译。思想向量的概念允许程序结合输入数据的上下文，这样具有多种含义的词也可以在明确的上下文中翻译。如果想构建翻译应用程序，ManyThings网站提供了可以用于训练集的句子对。nlpia包中也有一些句子对。

由于输入和输出的字符串长度可以不同，序列到序列模型也非常适用于文档摘要。在这种情况下，编码器网络的输入是：例如新闻报道（或任何其他长度的文档）。而解码器可以训练生成标题、招摇或其他任何与文档相关的总结性序列。序列到序列网络可以提供一个比基于词袋向量统计的摘要方法更自然的文本摘要方式。

序列到序列网络并不局限于自然语言应用。另外两个常见应用是自动语音识别和图像描述。目前最先进的自动语音识别系统使用序列到序列网络将语音输入幅度样本序列转化为思想向量，而序列到序列解码器将思想向量转换为语音的文本翻译。同样的概念也适用于图像描述。图像像素序列（无论图像分辨率如何）可以用作编码器的输入，并且可以训练解码器生成合适的描述。