深入剖析Transformer-文本向量化

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里插入图片描述

01 文本向量化

文本向量化是将文本转换为数值形式,使计算机和机器学习模型能够理解和处理文本数据。在深度学习和自然语言处理中,这一步骤尤为重要。

图片

词向量化

词向量化通常使用高维实数向量来表示每个词,这样可以捕捉词的语义信息。

常用方式主要包括以下几种:

1. 独热编码(One-hot Encoding): 这是一种将每个词表示为唯一的向量的方法。向量的维度等于文本中不同词的数量,对于给定的词,它在向量中的值为1,其余位置均为0。这种表示方法简单直观,但无法表示词与词之间的语义关系。

图片

2. 词袋模型(Bag-of-Words Model): 该模型将文本中的每个词表示为一个固定长度的向量,向量的每个维度表示一个词的出现频率或者TF-IDF权重。词袋模型忽略了词语的顺序和上下文信息,只考虑词出现的频率。

3. 词频-逆文档频率(TF-IDF): 这是一种常用的统计技术,用于评估一个词在一个文件集或一个语料库中的一个文件中的重要程度。一个词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

图片

4. 词嵌入模型(Word Embedding): 如Word2Vec和GloVe等,它们利用深度学习方法,通过训练大规模语料库学习词的向量表示。这些模型能够捕捉词的语义和语法信息,使得语义上相似的词在向量空间中的位置相近。

图片

这些词向量化的方式各有特点,适用于不同的场景和需求。在实际应用中,可以根据具体任务和数据集的特点选择适合的方法。

句子向量化

句子向量化是将整个句子转换为一个数值向量的过程,以便计算机和机器学习模型能够理解和处理句子级别的文本信息。

常用方式主要包括以下几种:

1. 简单平均/加权平均: 对句子中的词向量进行平均或根据词频进行加权平均。

2. 递归神经网络(RNN):

通过递归地处理句子中的每个词来生成句子表示。

3. 卷积神经网络(CNN):

使用卷积层来捕捉句子中的局部特征,然后生成句子表示。

4. 自注意力机制:

如Transformer模型,通过对句子中的每个词进行自注意力计算来生成句子表示。

图片

文档向量化

文档向量化将整个文档转换为一个数值向量。这个数值向量能够捕捉文档的整体语义和内容信息,使得计算机和机器学习模型能够理解和处理文档级别的文本数据。

常用方式主要包括以下几种:

1. 简单平均/加权平均: 对文档中的句子向量进行平均或加权平均。

2. 文档主题模型(如LDA): 通过捕捉文档中的主题分布来生成文档表示。

3. 层次化模型: 如Doc2Vec,它扩展了Word2Vec,可以生成整个文档的向量表示。

图片

02 位置编码

由于Transformer模型不包含循环和卷积,为了让模型利用序列的顺序信息,我们必须在序列中的标记上注入一些关于相对或绝对位置的信息。为此,我们在编码器和解码器堆栈的底部向输入嵌入添加“位置编码”。

关于位置编码,有多种选择,包括学习得到的和固定的。

在这项工作中,最终使用不同频率的正弦和余弦函数来生成位置编码:

图片

Transformer也尝试使用学习得到的位置嵌入,发现这两种版本产生了几乎相同的结果。Transformer选择正弦波版本是因为它可能允许模型外推到比训练时遇到的更长的序列长度。

图片

03

总结

本文全面概述了Transformer的文本向量化,通过自注意力机制实现对输入序列的并行处理,为了弥补自注意力机制无法考虑输入顺序的缺陷,引入了位置嵌入(Posit

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

Transformer-XL是一种改进的Transformer模型,用于处理超长文本。它的名称中的"XL"代表"extra long",意味着它专门设计用于处理长文本。\[1\]传统的Transformer模型在处理超长文本时效率较低,因此Transformer-XL通过引入相对位置编码来解决这个问题。相对位置编码是指在词向量中添加关于词的相对位置信息,而不仅仅是绝对位置信息。\[2\]这样一来,Transformer-XL可以在训练时将文本分成多个segment进行训练,并在预测时通过移动segment的步长来处理超长文本。这种方法大大提高了处理超长文本的效率。\[1\]此外,Transformer-XL还通过保存前一个segment的hidden state来避免在推理阶段重新计算,进一步提高了推理速度。根据论文中的比较,Transformer-XL在enwiki8数据集上的推理速度是Vanilla Transformer的1800多倍。\[3\] #### 引用[.reference_title] - *1* *2* [Transformer-XL详解](https://blog.csdn.net/qq_51302564/article/details/117882327)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Transformer-XL全解读](https://blog.csdn.net/u012526436/article/details/109156096)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值