词嵌入(word2vec)-NNLM（Neural Network Language Model）

最新推荐文章于 2024-06-25 09:31:58 发布

黄小猿

最新推荐文章于 2024-06-25 09:31:58 发布

阅读量9.6k

点赞数 13

分类专栏： NLP 文章标签：自然语言神经网络 word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39422642/article/details/78658309

版权

基本概念
词编码
向量空间子结构
One-Hot
Bag of words(词袋模型)
TF-IDF
语言模型
分布式表示
共现矩阵
NNLM（Neural Network Language Model）神经网络语言模型
NNLM的基本思想
NNLM原理
projection layer
SoftMax层
hidden layer

1.基本概念

传统的机器翻译，自然语言处理多是基于规则的，现在更多的是基于模型，规则隐含的参数里。

词编码
每个词都用不同的含义，而要被机器所识别，就必须要把词进行编码，同时词编码时要保证词的相似性。图像识别的时候，对图像在RGB三个颜色通道中看他们的相似性就可以了，但是，无论中文还是英文，词都太多了，他是人造的，很难保持像图片这样的信息，所以我们希望能对词进行编码，保持它所包含的信息量。

因此，我们希望能有一个对应关系，如图，这些数字在空间中的表示能有一个对应关系。这不就是和机器学习差不多吗？很多机器学习的预测都是寻找一个对应关系，也就是数据（X）和预测的东西（Y）的对应。机器翻译其实原理也差不多。
这里写图片描述

向量空间子结构
我们希望找到这样一个关系，可以作为机器学习/深度学习的输入.

V K i n g - V Q u e e n + V W o m e n = V M a n

$V_{King} -V_{Queen} + V_{Women} = V_{Man}$ 这个有没有感觉呢？其实换成这样，你可能更好理解:

V K i n g - V Q u e e n = V M a n - V W o m e n

$V_{King} -V_{Queen} = V_{Man} - V_{Women}$ 我们就是希望找到

King,Queen $King,Queen$ 之间的差异，隐含的关系，然后通过一个dense vector表示。

One-Hot
最简单的一种想法，就是对一句话用one-hot编码:比如对于这句话：

J o h n l i k e s t o w a t c h m o v i e s, M a r y l i k e s t o o .

$John\ likes\ to\ watch\ movies ,Mary\ likes\ too.$

J o h n a l s o l i k e s t o w a t c h f o o t b a l l g a m e s .

$John\ also\ likes\ to\ watch\ football\ games.$

" J o h n " : 1, " l i k e s " : 2, " t o " : 3, " w a t c h " : 4, " m o v i e s " : 5, " a l s o " : 6,

最低0.47元/天解锁文章

关注

13
点赞
踩
47

收藏

觉得还不错? 一键收藏
0
评论
词嵌入(word2vec)-NNLM（Neural Network Language Model）

基本概念词编码向量空间子结构 One-Hot Bag of words(词袋模型) TF-IDF 语言模型分布式表示共现矩阵NNLM（Neural Network Language Model）神经网络语言模型 NNLM的基本思想 NNLM原理 projection layer SoftMax层 hidden layer 1.基本概念传统的机器翻译，自然语言处
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。