word embedding

word embedding的意思是:给出一个文档,文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。比如,对于这样的“A B A C B F G”的一个序列,也许我们最后能得到:A对应的向量为[0.1 0.6 -0.5],B对应的向量为[-0.2 0.9 0.7]  (此处的数值只用于示意)之所以希望把每个单词变成一个向量,目的还是为了方便计算,比如“求单词A的同义词”,就可以通过“求与单词A在cos距离下最相似的向量”来做到。
常见的word embedding方法就是先从文本中为每个单词构造一组features,然后对这组feature做distributed representations,哈哈,相比于传统的distributed representations,区别就是多了一步(先从文档中为每个单词构造一组feature)。

神经网络词向量模型与其它分布表示方法一样,均基于分布假说,核心依然是上下文的表示以及上下文与目标词之间的关系的建模。

前面提到过,为了选择一种模型刻画某个词(下文称“目标词”)与其上下文之间的关系,我们需要在词向量中捕捉到一个词的上下文信息。同时,上面我们恰巧提到了统计语言模型正好具有捕捉上下文信息的能力。那么构建上下文与目标词之间的关系,最自然的一种思路就是使用语言模型。从历史上看,早期的词向量只是神经网络语言模型的副产品。

2001年, Bengio 等人正式提出神经网络语言模型( Neural Network Language Model ,NNLM),该模型在学习语言模型的同时,也得到了词向量。所以请注意一点:词向量可以认为是神经网络训练语言模型的副产品。

做word embedding的数学方法:神经网络词汇共生矩阵(word co-occurrence matrix)随机模型根据词汇的语境进行显示表达发展历史:

2000年 -- 开始发展2003年 -- 出现了相关系统叙述此方法的著作:"A Neural Probabilistic Language Model". doi:10.1007/3-540-33486-6_6.

2009年 -- 高维数据的降维方法 Roweis, S. T., & Saul, L. K. (2000). Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science, 290(5500). Retrieved from http://science.sciencemag.org/content/290/5500/2323

2013年 -- word2dec出现。这是由Tomas Mikolov带领的谷歌团队编写的toolkit

2017年 -- 机器可以学到语言中的深意(可能算不上重要进展,但至少是篇有意思的文章)。Caliskan-islam, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora necessarily contain human biases. Science, 356(April), 183–186. http://doi.org/10.1126/science.aal4230


常见的word embedding的方法有:

1. Distributed Representations of Words and Phrases and their Compositionality

2. Efficient Estimation of Word Representations in Vector Space

3. GloVe Global Vectors forWord Representation

4. Neural probabilistic language models

5. Natural language processing (almost) from scratch

6. Learning word embeddings efficiently with noise contrastive estimation

7. A scalable hierarchical distributed language model

8. Three new graphical models for statistical language modelling

9. Improving word representations via global context and multiple word prototypes


word2vec中的模型至今还是存在不少未解之谜,因此就有不少papers尝试去解释其中一些谜团,或者建立其与其他模型之间的联系,下面是paper list

1. Neural Word Embeddings as Implicit Matrix Factorization

2. Linguistic Regularities in Sparse and Explicit Word Representation

3. Random Walks on Context Spaces Towards an Explanation of the Mysteries of Semantic Word Embeddings

4. word2vec Explained Deriving Mikolov et al.’s Negative Sampling Word Embedding Method

5. Linking GloVe with word2vec

6. Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective

参考:https://www.zhihu.com/question/32275069

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值