面经之word2vec
篇(二)
前篇
本篇文章主要是结合word2vec
源码来进行分析其中的一些trick
。为什么要学习呢?还不是因为热爱(面试官问了源码的相关内容,虽然之前看了,但是不熟悉,咱补起来…)
有时间还可以看一下word2vec
经典的论文:(PS:本人说没看论文,看了代码,然后被鄙视了…)
言归正传,我们开始剖析源代码了:
1.word2vec
之 σ \sigma σ函数的计算
按照我们的想法, σ \sigma σ直接计算不就完事了么?但是你实际考虑了计算资源了没,指数计算是比较耗费计算资源的(不懂的话可以类比一下决策树C4.5
分类时,为了避免运行复杂的对数运算,后面CART
树对分类基准直接是采用了基尼系数),那么对 σ \sigma σ函数计算的时候,大牛本人也是做了基本的近似:
不是向我们所想,使用函数来直接计算 σ \s