1. Word meaning
-
计算机如何表达词的意思
词呢,通常被认为是表达意思的最小单位了。但是语言学专业好像不是这样,而是以词素为单位。(之前google了一下没怎么懂...有人懂可以给我留言一下喔,谢谢~)
分类词典。WordNet词库,比如NLTK中可以通过WordNet查询熊猫的hypernyms (is-a,上位词),得到“食肉动物”“动物”之类的上位词。也可以查询“good”的同义词——“just品格好”“ripe熟了”。
-
discrete representation离散表示
离散表示,将词表示出来,典型的“one-hot”独热编码(localist representation局部表示)。这种就是把词库中的n个所有词当成一个n维的向量。这样呢第一个词语的表示方法就是把n维向量的第一位 置1。第二个词语就是第二位 置1。以此类推。
这种表示确实可以把词表示出来,但是有两个最主要的问题:
维度灾难:课程中slides里的图,到最后文本词库不断的增加,维度太大。
词间关系:词与词之间意思是相近的,不是单独而存在的。“good”和“great”意思相近,但是o-h独热编码没有这一层的表示。那就后来有了distributed representation.
-
distributed representations
至此,我们需要一种用向量直接编码词含义的方法。
现代统计自然预言处理最成功的思想,也是后续有了word2vec工作的思想基础吧。
我们可以通过一个词的邻居词的意思来知道这个中心词的意思。
总之呢,最后表示出来的词向量长这个样子。中心词是“linguistics”。这个维数呢根据情况自己定义。
-
学习神经网络word embeddings的基本思路
首先呢,定义一个模型(不想写了,先把作业的记录写了。这个理论有空再写吧)