大模型｜基础_word2vec

最新推荐文章于 2024-11-03 17:03:38 发布

晓源Galois

最新推荐文章于 2024-11-03 17:03:38 发布

阅读量805

点赞数 3

文章标签： word2vec 人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fangyechy/article/details/136023157

版权

文章目录

Word2Vec

Word2Vec

在这里插入图片描述
将词转化为向量后，会发现king和queen的差别与man和woman的差别是类似的，而在几何空间上，这样的差别将会以平行的关系进行表达。

会使用滑动窗口的机制。

在这里插入图片描述
滑动窗口内会有一个target目标词（上图蓝色部分），滑动窗口其他部分就是context word上下文，可见，这个上下文大小受限于滑动窗口的大小。

词袋模型CBOW Continuous Bag-of-Words

通过上下文context预测目标词target。
在这里插入图片描述
比如通过Never和late去预测出too来，先通过one-hot编码来对Never和late进行编码，并且借编码结果分别找到对应的词向量，然后将never和late的词向量去取平均，在和词库里面的每个词的词向量去做点积（点积能够反映向量的相似性）处理，然后将各个点积的结果，然后用softmax将其转化成概率，概率最大者，即为推理出来的结果。
（不是很懂，为什么还要对已知的词进行预测，可能是为了训练模型,来提高下一次，窗口框住相同的词，能够迸出target）

Continuous Skip-Gram

在这里插入图片描述
使用目标词target来反向预测上下文context。

需要注意的是，上下文单词有可能是有多的，而target只有一个，用target去预测一组上下文单词是比较困难的（可能把组当成是一个元素，存储空间太大了），于是预测的目标还是将一组单词进行拆分。

在这里插入图片描述

存在的问题

在这里插入图片描述
内容过多导致反向传播和梯度下降的执行过程所耗费的时间相对大。

解决方案

使用分层softmax和负采样。
在这里插入图片描述
负采样前

在这里插入图片描述
负采样后
由此观察，dim从V降成了5

其他技巧

在这里插入图片描述

f代表频次，f(w)即w这个词出现的次数。
而按次数去区分词，可以将词分为高频词和罕见词。
罕见词相比高频词能够蕴含更多的含义。
比如说“的”，“了”等助词只能在结构上起到完善的作用。
而罕见词往往能够带来更多的意义和区分度，更具有信息价值，所以可以通过上述这个可通过t来调节的式子来提前删去高频词。
在这里插入图片描述

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

晓源Galois CSDN认证博客专家 CSDN认证企业博客

码龄4年

102: 原创

40万+: 周排名

10万+: 总排名

7万+: 访问

: 等级

1763: 积分

1233: 粉丝

721: 获赞

28: 评论

710: 收藏

私信

关注

热门文章

分类专栏

计算机网络 2篇
计算机视觉 1篇
机器学习 5篇
面试 1篇
操作系统 1篇
transformer 4篇
深度学习 28篇
推荐系统 14篇
大模型 1篇
项目 1篇
数据库 1篇
算法 1篇
图神经网络 8篇
C++ 6篇
python 8篇
组成原理 3篇
摄影 1篇
线代 1篇
微信小程序 2篇
高数 1篇
爬虫 1篇

最新评论

【组原】补码一位乘法（booth算法）及原理
做而论道_CS: 原来，有六位数。需要相加移位相加移位...六次。改用了布斯算法：　增加了判断环节。　出现了加零的现象。貌似减少了加法操作！而在实际上，仍然要有六次循环！　即使是加零或是什么都不加，也必须要有六次移位！而移位，是要由时钟脉冲控制的。虽然你采用布斯算法了，你用改变不了脉冲的速度。所以，你不如老老实实的相加移位吧。－－－－－－－－－－－－－－－－－－－－布斯算法：　移位、判断、加减一个什么东西。　移位、判断、加减一个什么东西。　。。。　。。。这一步一步，是由 CPU 中的时钟脉冲控制的。来一个脉冲，布斯乘法器就做一步。时钟脉冲，你可以理解为：计算机的主频。频率是固定的。它不会因为加零、正补码、负补码，而改变速度。无论你加什么，速度，是一样的。所以，就老老实实的加原来的补码吧。这就是最简洁的方法了。
【组原】补码一位乘法（booth算法）及原理
做而论道_CS: 布斯算法：　在 00 和 11 时，(ACC) + 0。其实：　无论是加 0，或是什么都不加，其所用的时间，　和加 [X]补、[-X]补的时间是一样的。布斯算法，节省时间，只是【心理作用】而已。反而多用了许多用于判断的硬件。得不偿失。
【组原】恢复余数法和不恢复余数法
做而论道_CS: 计算机专业的专家教授，只是懂得小学的除法减法而已。以此知识，就想像出来了计算机底层的工作过程。他们的水平，实在是太洼了。计算机的底层，是电子技术专业的技术人员设计出来的。这些只懂小学知识的计算机专家，就太能忽悠了。几十年来，就拿这些“知识”来教学！怪不得我们缺芯片用。
【组原】恢复余数法和不恢复余数法
做而论道_CS: 底层硬件？底层硬件，是电子专业工程师，设计出来的。在借位为 1 时，就可以不输出 “不够减的差”。只需加一个与门进行屏蔽，即可不输出了。加上一个与门，这电路，极为简单！计算机专业的人，并不懂底层硬件。只会冒充内行。凭借自己的想像，自以为是的认为：　必须把余数恢复回去。其实，在计算机的除法器中，　根本就不存在 “不够减的余数”。又或者说：　即使有，也在底层硬件中，把它消除了。恢复余数，不恢复余数！并不符合电子器件的设计思路。这都是计算机专家自己脑补出来，蒙骗大学生的！
【组原】恢复余数法和不恢复余数法
晓源Galois: 是的，从底层硬件上应该就是这样。

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。