CS224N笔记——第二讲——word vector representations,word2vec

Natural Language Processing with Deep Learning课程代号CS224N,是斯坦福大学的有关自然语言处理的课程,并且是世界上有关神经网络与自然语言处理方面优秀的课程。找遍了网络也没有找到有中文翻译的,所以我这个英语渣只能强行听英文课程。因此做一些笔记方便以后复习。记录得也比较混乱。

第一讲是一个总体介绍,就没有写了。


以下内容来自课程视频以及PPT


在处理自然语言的过程中,需要将语言进行表示,无论是什么学派,一般nlp研究者都将单词作为最小的单位。使用one-hot形式,语料越多,维度越大,直到非常大,非常巨大…并且两个one-hot形式是正交的,无法表示有关两个单词的相似度。

因此需要找到其他的办法来表示单词。
其中一个很有用的思想是——可以通过一个单词的上下文了解这个单词的意思,或者有一些其他的不同说法,但是思想都是统一的,就是在表示一个单词的时候,你可以根据其上下文得到很多有用的信息。如下图:

我们按照向量的形式来定义单词的意思。

每个单词一个dense vector, 为了便于预测其上下文出现的其他单词。这些单词也是用向量表示。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值