[CS224n] week1-Word Vector词向量

1. Word meaning

  •     计算机如何表达词的意思

词呢,通常被认为是表达意思的最小单位了。但是语言学专业好像不是这样,而是以词素为单位。(之前google了一下没怎么懂...有人懂可以给我留言一下喔,谢谢~)

分类词典。WordNet词库,比如NLTK中可以通过WordNet查询熊猫的hypernyms (is-a,上位词),得到“食肉动物”“动物”之类的上位词。也可以查询“good”的同义词——“just品格好”“ripe熟了”。

  •     discrete representation离散表示

离散表示,将词表示出来,典型的“one-hot”独热编码(localist representation局部表示)。这种就是把词库中的n个所有词当成一个n维的向量。这样呢第一个词语的表示方法就是把n维向量的第一位 置1。第二个词语就是第二位 置1。以此类推。

这种表示确实可以把词表示出来,但是有两个最主要的问题:

维度灾难:课程中slides里的图,到最后文本词库不断的增加,维度太大。

词间关系:词与词之间意思是相近的,不是单独而存在的。“good”和“great”意思相近,但是o-h独热编码没有这一层的表示。那就后来有了distributed representation.

  • distributed representations

至此,我们需要一种用向量直接编码词含义的方法。

现代统计自然预言处理最成功的思想,也是后续有了word2vec工作的思想基础吧。

我们可以通过一个词的邻居词的意思来知道这个中心词的意思。

总之呢,最后表示出来的词向量长这个样子。中心词是“linguistics”。这个维数呢根据情况自己定义。

  • 学习神经网络word embeddings的基本思路

首先呢,定义一个模型(不想写了,先把作业的记录写了。这个理论有空再写吧)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值