https://www.cnblogs.com/eniac1946/p/8818892.html
参考:https://www.cnblogs.com/eniac1946/p/8818892.html
基于Hierarchical Softmax的CBOW模型
构造 P(w | context(w))
![在这里插入图片描述](https://img-blog.csdnimg.cn/2019112517320757.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RyYW5jZTk1,size_16,color_FFFFFF,t_70)
哈夫曼树(Huffman Tree)
又称为带权路径长度最短二叉树,或最优二叉树。如A:15,B:10,C:3,D:5,下图所示为哈夫曼树:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191125171100391.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1RyYW5jZTk1,size_16,color_FFFFFF,t_70)
带权路径长度WPL=33+53+102+151=59。
在CBOW中,输出层为一棵根据词频构造的哈夫曼树。
其实在word2vec之前,即有类似