@TOCword vetor
1\计算机的运算都是数字,在处理语言时做的也是数据运算,语言由词汇含一定语法组成,词汇需要数字化表示,one-hot 可以算作一种,假设世界只有 “好好学习天天向上”6个字,也用
100000 代表好、010000 代表学 …。但是没法比较相似度,而且词汇量比较大,one-hot需要改进
2\语言中的词和上下文是有“连贯性”的,连贯性以在数学上表现起来就是相近的数字,一维不够,则出现了多维,多个数字组成一个向量 。几何上像是一个词嵌入在一个多维空中的合适的位置
3\一段语言本来有自己的顺序,决定了他们在空间上也要有相应的关系,空间上的关系找的十分完美,全部正确的概率1,完全不对则是0,我们的目标是概率最大,概率=P(上文|给定中心词)* P(下文给定中心词)N个此分别作为中心词。求概率与向量点乘在效果上是等价的,概率在此处的目标是度量相似度,向量点乘的结果可以永凯刻画相似度(向量1,0 与向量0,1是垂直的,不在一个方向上点成后是0)
4\P(上文|给定中心词)=(中心词向量上文词向量)/中心词概率(全概率的 给定其他词作为中心词*给定中心词后词此作为上概率)
5\概率函数里的参数变量是词向量,对变量求导可以得到梯度
6\依据梯度多次优化得到最优值
7\中心词预测上下文方法叫做Skip-grams(SG),给定上下文预测中间词叫做Continuous Bag of Words (CBOW),
问题:与“查表”,近似隐层的神经网络的理解方式如何整合
待仔细研究的
https://blog.csdn.net/Xw_Classmate/article/details/105172162
逻辑回归及softmax分类原理
梯度下降手算过程,其他优化算法
基于哈夫曼树的word2vec