【如何用大语言模型快速深度学习系列】从word2vec、SVD到GloVe

Zach_菠萝侠

已于 2023-07-07 14:39:35 修改

阅读量742

点赞数

文章标签：语言模型深度学习 word2vec

于 2023-07-06 22:08:37 首次发布

本文链接：https://blog.csdn.net/qq_45637001/article/details/131536657

版权

文章探讨了一词独热编码的局限性，引出word2vec的概念，它通过低维度向量捕获词之间的关系。word2vec利用神经网络实现词的降维表示，解决了one-hot稀疏性问题，能体现词的语义相似性。此外，文章还提及了SVD等其他降维方法。

摘要由CSDN通过智能技术生成

三天热度果然名不虚传，写作的效率有所下降，但是只要坚持二十一天就能养成习惯啦！冲冲冲！
又被推进每日值得看啦！那我加油，尽量补充点内容，使其更加精彩！

上一节回顾文章链接

在上一章我们将词的概念，通过n-gram组合成了n个词的切片，终于将前后词之间建立了一个联系，可以根据词的关系，逐步看见句子之间的相似度，以及根据高频词能够判断文章之间的关联程度。

上一节todo

相关代码未补充完整预计明后两天停更新新内容，将前面进行代码补全。
编辑距离忘了补充。
jieba的详细介绍以及如何自己制作词典没有介绍。

写在第四节和第五节前面的引入部分

one-hot向量表示文本的不足之处

one-hot太稀疏
回到1-gram和2-gram的例子：

我喜欢看电影
用单词出现次数来表示：【“我”：1.“喜欢”：1，“看”：1，“电影”，1】
我喜欢看电影。
用2-词片段出现次数来表示：【“我喜欢”：1.“喜欢看”：1，“看电影”：1】

现在我们对“我”，“喜欢”，“看”，“电影” 进行编码，最简单的其实是我们一直以来的，按照索引，[1,0,0,0]第0个是“我”，[0,1,0,0]这是“喜欢”,而在不同的文章和规则下，比如2-gram下的，[1,0,0]表示“我喜欢”，在很长的文章里，则有数千甚至过万的词，编码格式为 [1,0,0…0]，即为one-hot编码，为此，英文采用了基础词+前缀+后缀进行编码等奇思妙想来充分利用一些“0”，但这依然很稀疏。

one-hot近义词同义词很难体现
如果按abc顺序进行排序，则“爱戴”，“尊敬”很难体现其应用场景相似相近，因为点乘永远是0。
如果按偏旁部首排序，则“抵达”和“到达”很难体现其意义相近，同理
如果按出现频率排序，按上一节tfidf，我们明白，高频词只有出现在少部分文章的时候，才具有意义，否则我们是会将其判断为停用词，即没有意义的词。
如果用哈希表和预先拥有的知识构建词典，我觉得这个想法不错，但工作量巨大。

总之，one-hot的最大优点在于简单灵活、清晰明了，对于指定的、小文本任务中，依然发挥着十分重要的作用。而为了解决稀疏问题和词之间的语义联系等，我们可以阅读第四节 word2vec 和第五节 SVD 啦！

第四节 word2vec

概念

大模型对word2Vec
这个概念写的不是很符合我的心意，我们试试inscode
inscode结果
inscode字写得多，其实就会更加全面一些，但是单从回答依然可能看的是一头雾水，因此我还是会用通俗易懂的方式理解一下概念。

理解

还是从例子引入
设x1 = 苹果， x2 = 水果 x3 ≈ 中华田园犬，x4 = 狗
由苹果与水果的关系，中华田园犬与狗的关系都是被包含关系，于是理论上我们能确定一个关系式：word2vec (x2) - word2vec(x1) =（≈） word2vec(x4) - word2vec(x3)

word2vector的目标将原本的一个词/词切片，经过编码就会变成一个低维度的向量（一个word 变成了 vector）比如有1万词，可能降低到16维，然后通过向量唯一表示该词
注：图片引用自fond_dependent的这篇博客
word2vector的向量应用这个向量可以描述词于词之间的关系，比如水果到苹果的向量之差就等于中华田园犬到狗之差。
word2vector的向量的进一步推理自然而然的，苹果换成香蕉，仍然成立
f(水果) - f(香蕉) ≈ f(狗) - f(中华田园犬) ≈ f(水果) - f(苹果)，我们发现word2vector居然完成了f(香蕉) ≈ f(苹果)，可以得到向量空间上两个向量的距离是靠近的！同时他们是唯一表示的，因此不会是等号。
关于距离与相似度 描述向量之间的距离有很多种，有多少种距离，就有更多种相似度的度量方法！

埋一个坑：做一个向量距离、相似度的整理与总结
再埋一个坑：做一个降维的方法总结，可能涉及到机器学习方法、深度学习方法

实现方法

上面是一些理论性的东西，相信有了上面四个点的例子和推理，我们能对word2vector有了一个清晰的认识，而具体如何找到这个函数f(x)，达到所需效果，现在更多会使用神经网络实现，我们可以忘记所有方法，把握两个关键点即可使用任何方法实现。

如何将10000个词字用16个维度表表示(10000和16突出的是降维程度之大)
理论上，降维的方法有很多，设置降低到目标维度如何设置，最好等等，都是根据不同的任务进行确认。
李沐的《动手学深度学习》中提供了代码视频，github代码，利用的是神经网络，然后我这两天也在尝试使用机器学习方法，然后用长短不一的数据集做一些实验进行对比，得到一些经验：
解决 f(香蕉) ≈ f(苹果)的方法：
训练数据：基于大量的文本，用词语的前后词语来判断，如1：我去上海玩耍；2：我去南京玩耍，此时，上海和南京会被判断为类似，此时通过f(上海) = f(南京) 来调整权重。由此，我们可以退而求