NLP入门—Task5 从one-hot到word2vec

参考资料:词袋模型word2vec1word2vec2word2vec 中的数学原理详解word2vec原理推导与代码分析

1、词袋模型
 词袋模型(Bag of Words,简称BoW),词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅考虑词的权重,而这一权重与词频率有关(参见前几篇)。常见方法为one-hot、TF-TDF。
 如果有一个3个词组成的词汇汇表,词“listen”的序号是2,那么它的词向量为(0,1,0).这种词编码方式为one-hot-representation。此种方法将很有可能得到每个句子离散、高维稀疏的情况。

2、分布式表示
 分布式表示(Distributional Representation),把研究对象表示为一个低维、稠密的连续向量。它通过提取向量的每个维度,再集合行成新的向量,可以反映对象在空间的具体位置,代表着对象的语言信息。

3、word2vec词向量原理及实践
 word2vec是分布式表示,生成词向量的一种方法。
 在word2vec之前,常见的得到词向量的方法是通过神经网络语言模型。一般是一个三层神经网络结构,分别是输入层、隐藏层和输出层。在定义输入和输出时,一般分为CBOW(continuous bag-of-words)与Skip-Gram两种模型。
 CBOW是输入某个特征词的上下文相关的词对应的词向量,输出是特定词的词向量。Skip-Gram模型思路相反,输入特定词的词向量,输出特定词上下文词向量。

3.1 基于Hibrarchical Softmax模型的word2vec(霍夫曼树)
 word2vec同样使用上边两个模型输入输出,但没有应用DNN模型。它采用霍夫曼代替隐藏层和输出层的神经元,叶子节点进行输出,叶子节点个数代表词汇表的大小。
 存在缺点:如果训练的中心词是个生僻词,那么霍夫曼树下分支要走很多,因此需要寻找一个更为简单的模型。

3.2 基于Negative Sampling模型的word2vec
 负采样方法,是假设训练样本的中心词w,上下文有2c个词,记为text(w),此为真实存在的正例。通过负采样,得到n个不同于w的中心词wi,这样text(w)和wi组成了n个虚拟存在的负例。通过二元逻辑回归,得到wi对应的模型参数Fi和每个词的词向量。

代码示例参见 Pinard-博客园-github

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值