笔记 word2vec

词袋模型是将文档中所有词混在一起进行统计。

词向量是指对词语语义或含义的数值向量表示,包括字面意义和隐含意义,将所有这些含义结合起来构成一个稠密向量,这个稠密向量支持查询和逻辑推理。

正是这种无监督的特性使它无比强大,因为世界上充满了未标记、未分类、非结构化的自然语言文本。

无监督学习:

聚类算法,如k均值或DBSCAN就属于无监督学习,像主成分分析(pca)和t -分布领域嵌入算法这样的降维算法也属于无监督机器学习技术。在无监督学习中,模型从数据点自身的关系中发现模式。

通过使用低维内部表示来重新预输入的模型称为自编码器。就像是机器把大家的提问重新传回来,而且在提问时他还不能记录,机器必须把提问压缩成简写形式。

词向量看作是一个权重或分数的列表,列表中的每个权重或分数都对应于这个词在某个特定维度的含义。

面向向量的推理:

word2vec(连续空间词表示中的语言规律)

word2vec可以将表示词条的出现次数和频率的自然语言向量转换为更低维的word2vec向量空间。在这个低维空间中,我们可进行数学运算,并将结果转换回自然语言空间。

推理问题、类比、模式匹配、建模、可视化、关键词匹配

词向量将词的语义表示为训练语料库中上下文中的向量。

训练word2vec有两种方法:skip-gram:基于目标词(输入词)预测上下文(输出词)、连续词袋(CBOW)方法:基于邻近词(输入词)预测目标词(输出词)

预训练好的词模型:Glo Ve、fastText(facebook)、word2vec(google)

对于依赖专业词汇表或语义关系的领域,通用的词向量模型就不够了。

skip-gram:一种包含间隙的跳跃式n-gram语法,因为我们跳过了中间词条。

当神经网络的目标是学习分类问题时,经常用softmax函数作为神经网络输出层的激活函数。softmax可以将输出结果压缩为0到1之间的值,所有的输出的和加起来等于1,这样softmax函数的输出层结果就可以当作概率。softmax输出值通过归一化指数函数计算。

每个词在进入网络前被表示为一个独热向量,神经网络做词嵌入的输出向量也类似于一个独热向量,输出层节点概率最大的词转换为1,其余所有词转换为0.

当完成神经网络训练后,经过训练后的网络权重可以用来表示语义。经过词条独热向量的转换,权重矩阵的一行表示语料库词汇表中的一个词。

神经网络中隐藏层的权重矩阵:每列表示一个输入层神经元,每行表示一个输出层神经元。

词向量模型训练结束后便不再进行额外的训练,因此可以忽略网络的输出层,只用隐藏层的输入权重来作为词嵌入表示。一个6词的独热向量与3个神经元的权重矩阵(6*3)点积运算得到3维结果词向量。

输入层、输出层都包含M个神经元,其中M是模型的词汇表中词的总数。隐藏层由n个神经元组成,其中n表示词的向量维数。

skip-gram 方法对于小型语料库和一些罕见的词项比较适用,由于网络结构的原因,将会产生更多的训练样本。CBOW方法在常用词上有更高的精确性,并且训练速度快很多。

连续词袋方法:根据周围词预测中心词。可以创建一个多热向量作为输入词,多热向量是围绕中心词的所有周围词的独热向量的和。

以多热向量输入,目标词作为输出构建训练样本对。

2-gram

如果wi和wj经计算得到的分数高于阈值,则这两个词应当作为词项对被包含在word2vec词汇表中。

高频词条降采样:

为了减少像停用词这样的高频词的影响,可以在训练过程中对词进行与其出现频率成反比的采样。其效果类似于IDF对TF-IDF向量的影响。相比于罕见词,高频词被赋以向量更小的影响力。

负采样:

选取n个负样本词对(目标词输出之外的词),根据其对输出的贡献来更新对应的权重。

word2vec的高维和每个维度的连续值特性使其能够捕捉到给定词的全部含义,这也是他能用于做类比、连接以及多义并排的原因。 300万个词,每个词有300个向量维数

word2vec是一个巨大的突破,但它依赖于必须经反向传播来训练的神经网络模型,反向传播在效率上通常不如使用梯度下降法直接优化的代价函数。

计算词的共现次数并记录在一个正方形矩阵中。SVD方法:对词贡献的全局向量(在整个语料库中的共现)直接进行优化,因此命名为GloVe。优点:训练过程更快;更有效地利用CPU、内存(可以处理更大规模的文档);更有效利用数据(对小型语料库有帮助 );在相同的训练次数的情况下精确率更高。

fastText:该算法预测周围的n个字符,fastText为每个字符的gram训练一个向量表示,其中包括词、拼错的词、词片段,甚至单个字符,能够更好的处理罕见词。

LSA主题-词向量  ...

主成分分析PCA工具:将向量维数从原来的300维压缩到人们可理解的二维表示。降维

利用Doc2vec计算文档相似度:通过在词预测中加入额外的文档或段落向量,扩展了word2vec的概念。

使用tensorBoard理解模型,使用它来跟踪模型训练指标,绘制网络权重分布,可视化词嵌入以及完成其他任务。租用GPU 使用GPU实例的公共IP地址,端口6006

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值