[学习日志]自然语言处理-斯坦福 绪论

关于语言

这里教授的解读很短,但是还是非常令人震撼的。虽然没什么知识含量,但是听完我就燃起来了。

1/N - One Hot编码

在这里插入图片描述
缺点:向量维度会很高,且向量不包含词间关系的信息

分布语义 - Distributional semantic

在这里插入图片描述
大体意思就是如果做完形填空能分出对错,你就算认识这个词了。
比如词嵌入
在这里插入图片描述

Word2Vector

似乎是个很牛逼的算法,把NPL推向了神经网络学习领域,内容如下
在这里插入图片描述
调整向量,使得中心词推出周围词的概率最大化。
但是问题是,只有一堆随机向量,要怎么计算概率呢?
在这里插入图片描述
所有词都要有两个身份,作为上下文词 或 作为中心词。每个身份对应一个向量u v
这里对于公式的解释很草率,上半部分是内积,内积表示两个向量的相似度,相似度越大出现概率就高

我的理解就是这个计算是人定的,当我们用内积,并做完极大似然之后,频繁组团词的内积自然就会高。和相似性没什么关系,重要的是给词一个关系,并不断强化这个关系

当然也有可能这个公式是从贝叶斯啥的推过来的?以后了解推导的时候可以留意一下

最后的损失函数
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值