Word2Vec学习笔记(二)

最近在阅读word2vec的经典之作 Xin Rong 论文,学习过程遇到了一些困惑,记录如下。

问题一:在特殊模型(“bigram”)结构图上, 计算维度对不上

在这里插入图片描述

   在输入层误把 上图中的x(x1, x2… xv)看成 (V, N)的one-hot向量矩阵,导致误解一:x1 为维度(1, N)的独热编码向量,误解二:把x看成矩阵. 故致使层层之间的维度变换怎么都对应不上, 其原因是高中向量与高等向量的细节问题:前者向量是行向量,后者好像默认是列向量(同济线代),所以考虑美观,平时人为书写向量一般指的是行向量。
  输入层:x的维度应该是(V, C), C是滑动窗口大小的2倍, 且是one-hot后的列向量,而非矩阵,X1只是一个分量(当中心词位置是k(k不等于1)时,x1为0)

问题二:input→hidden层的矩阵W、hidden→output层的矩阵W’ 代表什么意思,两者是转置关系吗
   W和W’ 都是词向量矩阵, 前者叫中心词词向量矩阵, 后者叫上下文词向量矩阵。两者非转置关系。

问题三:如何理解"中心词对应的上下文中单词的概率分布(output),该分布与上下文所在的位置无关" 对应于(Same predictions at each position )
   举例: “The man was accused of robbing a bank.” “The man went fishing by the bank of the river.”Word2Vec将在两个句子中为单词“bank”生成相同的单词嵌入

问题四:input→hidden之间的词向量矩阵W是固定不变的,即无需更新
   不对,W需要同步更新,只是更新中心词所对应的词向量而已(部分),而非固定不变,也不是每次都是进行全量更新.

问题五:如何理解2句话:" an input vector can also be considered as being dragged by many output vectors" 和"The movement of the input vector of wI is determined by the prediction error of all vectors in the vocabulary"。
   注意:an input vector 指的是中心词的词向量, 而input context vector指的是input的one-hot向量(此处需要考虑全文指代关系). output vectors指的是上下文词向量(W’中的向量)
两句话表达意思是: 中心词的词向量受到上下文词向量的影响. W一般是开源的词向量矩阵,而W’一般是随机初始化的权重矩阵。

问题六:层次softmax的霍夫曼树是如何构建的
   根据句子中的词频构建的(不是词典库V)。而非叶节点对应于W’,随机初始化,然后逐步更新的,只是维度是V-1维(V是词库大小),而W’是V维的.

问题七:word2vec 使用梯度下降进行参数优化时,优化了那些参数
   优化了W‘、中心词对应的词向量,故中心词词向量也是会更新的.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值