LLM背景知识总结

嵌入式视觉

已于 2023-04-26 14:18:02 修改

阅读量680

点赞数

分类专栏： transformer模型文章标签：算法自然语言处理 embedding层 Token ID 序列

于 2023-04-14 17:34:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20986663/article/details/130158788

版权

transformer模型专栏收录该内容

7 篇文章 11 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

词向量

在 CV 领域，需要将数字图像转换为矩阵/张量进行神经网络计算；而在 NLP 领域，自然语言通常以文本形式存在，同样需要将文本数据转换为一系列的数值方便计算机进行计算，这里会涉及到词向量的概念，转换的方法通常有:

One-Hot 编码: 一种简单的单词表示方式
Word Embedding: 一种分布式单词表示方式
Word2Vec: 一种词向量的训练方法

`One-Hot` 编码

One-hot 编码是一种很简单的将单词数值化的方式。对于单词数量为 N 的词表，则需用一个长度为 N 的向量表示一个单词，在这个向量中该单词对应的位置数值为1，其余单词对应的位置数值全部为0。举例如下：

词典: [queen, king, man, woman, boy, girl ]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D7FG0uxf-1681810454990)(…/…/images/llm_basic/one-hot-eg.png)]

上图展示了词典中 6 个单词的 one-hot 编码表示。虽然这个表示还是很简单的，但是其也存在以下问题:

现实当中单词数量往往有几十万甚至上百万，这样如果用 one-hot 编码的方式表示单词，其向量维度会很长，且极其稀疏，即高维高稀疏。
因为向量之间是正交且点积为 0，

了解本专栏

超级会员免费看

嵌入式视觉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
LLM背景知识总结

在自然语言处理中，Token 是指一段文本中的基本单位，通常是一个词、一个词组或者一个字符。Tokenization 是将一段文本分解为一系列的 Token 的过程。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

嵌入式视觉 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。