word2vec的目标函数是什么,我就说了是对数似然函数,然后他就问了这个形式跟逻辑斯蒂回归形式差不多,逻辑斯蒂回归使用时一般是加正则化项的,word2vec为什么没加?
加正则的本质是减少数据中的误差对模型的影响。word2vec中输入数据是one hot encoding没有误差所以不用加。
说的结构误差可以理解成降低模型的复杂度,但是为什么要降低复杂度,本质上是wx中的x可能有噪声,比如w(x+eps),降低了w也就降低了w*eps,也就,噪声eps的影响
CBOW之所以叫连续词袋模型,是因为在每个窗口内它也不考虑词序信息,因为它是直接把上下文的词向量相加了,自然就损失了词序信息。很多博客中都说CBOW抛弃了词序信息,指的就是在每个窗口内部上下文直接相加而没有考虑词序
1228
最新推荐文章于 2024-09-05 20:59:15 发布