关于语言
这里教授的解读很短,但是还是非常令人震撼的。虽然没什么知识含量,但是听完我就燃起来了。
1/N - One Hot编码
缺点:向量维度会很高,且向量不包含词间关系的信息
分布语义 - Distributional semantic
大体意思就是如果做完形填空能分出对错,你就算认识这个词了。
比如词嵌入
Word2Vector
似乎是个很牛逼的算法,把NPL推向了神经网络学习领域,内容如下
调整向量,使得中心词推出周围词的概率最大化。
但是问题是,只有一堆随机向量,要怎么计算概率呢?
所有词都要有两个身份,作为上下文词 或 作为中心词。每个身份对应一个向量u v
这里对于公式的解释很草率,上半部分是内积,内积表示两个向量的相似度,相似度越大出现概率就高
我的理解就是这个计算是人定的,当我们用内积,并做完极大似然之后,频繁组团词的内积自然就会高。和相似性没什么关系,重要的是给词一个关系,并不断强化这个关系
当然也有可能这个公式是从贝叶斯啥的推过来的?以后了解推导的时候可以留意一下
最后的损失函数