05 神经网络语言模型（独热编码+词向量的起源）

最新推荐文章于 2024-08-21 21:01:18 发布

沧海之巅

最新推荐文章于 2024-08-21 21:01:18 发布

阅读量113

点赞数

分类专栏：管理体系大语言模型 AI 文章标签：神经网络语言模型人工智能

原文链接：https://www.cnblogs.com/nickchen121/p/15105048.html

版权

管理体系同时被 3 个专栏收录

72 篇文章 40 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

大语言模型

40 篇文章 0 订阅

订阅专栏

21 篇文章 1 订阅

订阅专栏

本文介绍了神经网络语言模型，包括n元语言模型和使用神经网络进行预测。重点讲解了独热编码在计算机理解单词中的作用，以及词向量作为神经网络语言模型的副产品，如何用于表示和计算单词间的相似度。最后，提到了词向量在下游任务中的应用。

摘要由CSDN通过智能技术生成

博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看

配套 github 链接：https://github.com/nickchen121/Pre-training-language-model

配套博客链接：https://www.cnblogs.com/nickchen121/p/15105048.html

统计语言模型

统计+语言模型–》用统计的方法去完成以下两个和人说的话相关的任务

语言模型 = 语言（人说的话） + 模型（去完成两个任务）

比较，“词性”，“磁性”
预测下一个单词（填空）

n 元语言模型

取 a（2，3，4）个词

神经网络语言模型

神经网络+语言模型–》用神经网络的方法去完成以下两个和人说的话相关的任务。

第二个任务：

“判断”，“一个”，“词”，“的”，“___”

假设词库里有“词性”和“火星”

P(__|“判断”，“一个”，“词”，“的”)

词性

w1,w2,w3,w4（上述 4 个单词的独热编码）

w1*Q=c1,
w2*Q=c2,
w3*Q=c3,
w4*Q=c4,

C=[c1,c2,c3,c4]
Q就是一个随机矩阵，是一个参数（可学习）

“判断”，“这个”，“词”，“的”，“词性”

softmax（U[tanh(WC+b1)]+b2）== [0.1, 0.1, 0.2, 0.2, 0.4] $\in[1,V_L]$

独热编码（one-hot 编码）

独热编码：让计算机认识单词

词典 V（新华字典里面把所有词集合成一个集合 V）

假设词典里面只有 8 个单词

计算机不认识单词的

但是我们要计算机认识单词

“fruit”

独热编码：给出一个 8*8 的矩阵

“time” --》 10000000

“fruit” --》 01000000

“banana” --》 00000001

余弦相似度去计算两者的相似度（0）–词向量（矩阵乘法）

词向量（神经网络语言模型的副产品 Q）

给我任何一个词，

“判断” --》独热编码w1 [1,0,0,0,0]

w1*Q =c1 （“判断”这个词的词向量）

词向量：就是用一个向量来表示一个单词

可以控制词向量的维度（大小）

如果我们得到的词向量，第一个问题也被解决了，（下游任务）

总结

神经网络语言模型：通过神经网络解决两个人说的话的问题

有一个副产品：Q 矩阵–》新的词向量（词向量可以选择词向量的维度，可以求两个词之间的相似程度）

下游任务

沧海之巅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
05 神经网络语言模型（独热编码+词向量的起源）

神经网络语言模型：通过神经网络解决两个人说的话的问题有一个副产品：Q 矩阵–》新的词向量（词向量可以选择词向量的维度，可以求两个词之间的相似程度）下游任务。
复制链接

扫一扫

专栏目录

05 神经网络语言模型（独热编码+词向量的起源）

统计语言模型

n 元语言模型

神经网络语言模型

独热编码 （one-hot 编码）

词向量（神经网络语言模型的副产品 Q）

总结

独热编码（one-hot 编码）