虽然word2vec火了很久了,但自己一直拖延了没去看,借实验室组会讨论的机会花一天时间阅读了和word2vec相关的一点东西,算是先知后觉。
邓澍军老师的中文教程很不错,顺着里面的文献一路看下去就能了解个差不多,北邮的这位同学总结的也很好。
发现网上没有代码的详细注释,就把自己写的注释,看能不能赚个点击量。
有两个地方需要注意一下:
1. 邓的文章中有如下图的公式,n(w, j)中的 j 是从1(代表根节点)开始算的。如果 code 中的 j 如果也是从 1开始算的话,那公式就错了,应该是 code[j+1],如果是从 0 开始算的话,那就对了。源代码中 code存储霍夫曼编码,point 存储编码在霍夫曼树上的路径,按说应该是一样长的,但其实 point 比 code长1,二者是错位的。
2. 下图注释掉的代码是作者的,我起初不理解为什么超出expTable范围的不能用0、1表示(e^6 / (e^6 + 1) =0.9975274),而直接continue。如果 f <= -MAX_EXP 而且 code值为 1 还好,如果code值为0 不就意味着很大的误差没有通过BP传回来么?
发邮件询问 Mikolov,他说是处于计算精度考虑,为了避免太小的 (1 - code[j] - f) (如 1 - 0 -0.9975274 = 0.0024726,MAX_EXP增大,这个值会更小)导致网络参数出现-infs和NANs,不过他也不知道这种负面影响具体有多大。
不过我寻思着总不能放着totallywrong的编码不管吧,我擅自把代码改成下面的样子,训练结果确实有一些变化,但在具体应用上是好是坏,还是不造。
代码注释如下,就检查了一遍,有错误欢迎指出。