word vetor

@TOCword vetor

1\计算机的运算都是数字,在处理语言时做的也是数据运算,语言由词汇含一定语法组成,词汇需要数字化表示,one-hot 可以算作一种,假设世界只有 “好好学习天天向上”6个字,也用
100000 代表好、010000 代表学 …。但是没法比较相似度,而且词汇量比较大,one-hot需要改进
2\语言中的词和上下文是有“连贯性”的,连贯性以在数学上表现起来就是相近的数字,一维不够,则出现了多维,多个数字组成一个向量 。几何上像是一个词嵌入在一个多维空中的合适的位置
3\一段语言本来有自己的顺序,决定了他们在空间上也要有相应的关系,空间上的关系找的十分完美,全部正确的概率1,完全不对则是0,我们的目标是概率最大,概率=P(上文|给定中心词)* P(下文给定中心词)N个此分别作为中心词。求概率与向量点乘在效果上是等价的,概率在此处的目标是度量相似度,向量点乘的结果可以永凯刻画相似度(向量1,0 与向量0,1是垂直的,不在一个方向上点成后是0)
4\P(上文|给定中心词)=(中心词向量
上文词向量)/中心词概率(全概率的 给定其他词作为中心词*给定中心词后词此作为上概率)
5\概率函数里的参数变量是词向量,对变量求导可以得到梯度
6\依据梯度多次优化得到最优值
7\中心词预测上下文方法叫做Skip-grams(SG),给定上下文预测中间词叫做Continuous Bag of Words (CBOW),

问题:与“查表”,近似隐层的神经网络的理解方式如何整合

在这里插入图片描述

在这里插入图片描述

待仔细研究的
https://blog.csdn.net/Xw_Classmate/article/details/105172162
逻辑回归及softmax分类原理
梯度下降手算过程,其他优化算法
基于哈夫曼树的word2vec

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值