简介
*NNLM是从语言模型出发(即计算概率角度),构建神经网络针对目标函数对模型进行最优化,训练的起点是使用神经网络去搭建语言模型实现词的预测任务,并且在优化过程后模型的副产品就是词向量。
*进行神经网络模型的训练时,目标是进行词的概率预测,就是在词环境下,预测下一个该是什么词,目标函数如下式, 通过对网络训练一定程度后,最后的模型参数就可当成词向量使用.
模型
*NNLM的网络结构(四层神经网络)如右图,主要参数有:
[1]词库大小(假定有8W个词)
[2]转化的词向量大小(假定为300维长度)
[3]输入层神经元数(即词的滑动窗口容量,假定滑窗大小为4)
[4]隐层神经元数量(假定为100个)
[5]输出层神经元数(对应词容量,有8W个)
[6]由输入层到投影层的矩阵C(一个大的矩阵,大小为8W*300,是最后求解的目的,开始时随机初始化)
[7]从投影层到隐层的权值矩阵H和偏置矩阵B
[8]从隐层到输出层的权值矩阵U和偏置矩阵D