笔记 word2vec

最新推荐文章于 2024-07-14 21:21:42 发布

啦啦伟vv

最新推荐文章于 2024-07-14 21:21:42 发布

阅读量515

点赞数 1

分类专栏：深度神经网络文章标签：机器学习神经网络深度学习自然语言处理 word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41846419/article/details/125441959

版权

深度神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

词袋模型是将文档中所有词混在一起进行统计。

词向量是指对词语语义或含义的数值向量表示，包括字面意义和隐含意义，将所有这些含义结合起来构成一个稠密向量，这个稠密向量支持查询和逻辑推理。

正是这种无监督的特性使它无比强大，因为世界上充满了未标记、未分类、非结构化的自然语言文本。

无监督学习：

聚类算法，如k均值或DBSCAN就属于无监督学习，像主成分分析（pca）和t -分布领域嵌入算法这样的降维算法也属于无监督机器学习技术。在无监督学习中，模型从数据点自身的关系中发现模式。

通过使用低维内部表示来重新预输入的模型称为自编码器。就像是机器把大家的提问重新传回来，而且在提问时他还不能记录，机器必须把提问压缩成简写形式。

词向量看作是一个权重或分数的列表，列表中的每个权重或分数都对应于这个词在某个特定维度的含义。

面向向量的推理：

word2vec（连续空间词表示中的语言规律）

word2vec可以将表示词条的出现次数和频率的自然语言向量转换为更低维的word2vec向量空间。在这个低维空间中，我们可进行数学运算，并将结果转换回自然语言空间。

推理问题、类比、模式匹配、建模、可视化、关键词匹配

词向量将词的语义表示为训练语料库中上下文中的向量。

训练word2vec有两种方法：skip-gram：基于目标词（输入词）预测上下文（输出词）、连续词袋（CBOW）方法：基于邻近词（输入词）预测目标词（输出词）

预训练好的词模型：Glo Ve、fastText（facebook）、word2vec（google）

对于依赖专业词汇表或语义关系的领域，通用的词向量模型就不够了。

skip-gram：一种包含间隙的跳跃式n-gram语法，因为我们跳过了中间词条。

当神经网络的目标是学习分类问题时，经常用softmax函数作为神经网络输出层的激活函数。softmax可以将输出结果压缩为0到1之间的值，所有的输出的和加起来等于1，这样softmax函数的输出层结果就可以当作概率。softmax输出值通过归一化指数函数计算。

每个词在进入网络前被表示为一个独热向量，神经网络做词嵌入的输出向量也类似于一个独热向量，输出层节点概率最大的词转换为1，其余所有词转换为0.

当完成神经网络训练后，经过训练后的网络权重可以用来表示语义。经过词条独热向量的转换，权重矩阵的一行表示语料库词汇表中的一个词。

神经网络中隐藏层的权重矩阵:每列表示一个输入层神经元，每行表示一个输出层神经元。

词向量模型训练结束后便不再进行额外的训练，因此可以忽略网络的输出层，只用隐藏层的输入权重来作为词嵌入表示。一个6词的独热向量与3个神经元的权重矩阵（6*3）点积运算得到3维结果词向量。

输入层、输出层都包含M个神经元，其中M是模型的词汇表中词的总数。隐藏层由n个神经元组成，其中n表示词的向量维数。

skip-gram 方法对于小型语料库和一些罕见的词项比较适用，由于网络结构的原因，将会产生更多的训练样本。CBOW方法在常用词上有更高的精确性，并且训练速度快很多。

连续词袋方法：根据周围词预测中心词。可以创建一个多热向量作为输入词，多热向量是围绕中心词的所有周围词的独热向量的和。

以多热向量输入，目标词作为输出构建训练样本对。

2-gram：

如果wi和wj经计算得到的分数高于阈值，则这两个词应当作为词项对被包含在word2vec词汇表中。

高频词条降采样：

为了减少像停用词这样的高频词的影响，可以在训练过程中对词进行与其出现频率成反比的采样。其效果类似于IDF对TF-IDF向量的影响。相比于罕见词，高频词被赋以向量更小的影响力。

负采样：

选取n个负样本词对（目标词输出之外的词），根据其对输出的贡献来更新对应的权重。

word2vec的高维和每个维度的连续值特性使其能够捕捉到给定词的全部含义，这也是他能用于做类比、连接以及多义并排的原因。 300万个词，每个词有300个向量维数

word2vec是一个巨大的突破，但它依赖于必须经反向传播来训练的神经网络模型，反向传播在效率上通常不如使用梯度下降法直接优化的代价函数。

计算词的共现次数并记录在一个正方形矩阵中。SVD方法：对词贡献的全局向量（在整个语料库中的共现）直接进行优化，因此命名为GloVe。优点：训练过程更快；更有效地利用CPU、内存（可以处理更大规模的文档）；更有效利用数据（对小型语料库有帮助）；在相同的训练次数的情况下精确率更高。

fastText：该算法预测周围的n个字符，fastText为每个字符的gram训练一个向量表示，其中包括词、拼错的词、词片段，甚至单个字符，能够更好的处理罕见词。

LSA主题-词向量 ...

主成分分析PCA工具：将向量维数从原来的300维压缩到人们可理解的二维表示。降维

利用Doc2vec计算文档相似度：通过在词预测中加入额外的文档或段落向量，扩展了word2vec的概念。

使用tensorBoard理解模型，使用它来跟踪模型训练指标，绘制网络权重分布，可视化词嵌入以及完成其他任务。租用GPU 使用GPU实例的公共IP地址，端口6006

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记 word2vec

word2vec 的相关概念和学习笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。