word embeddings详细分析

最新推荐文章于 2024-08-19 13:51:43 发布

JasonDecode

最新推荐文章于 2024-08-19 13:51:43 发布

阅读量1.4k

点赞数

分类专栏： deep learning Python

本文链接：https://blog.csdn.net/weixin_43012796/article/details/109390412

版权

Python 同时被 2 个专栏收录

88 篇文章 1 订阅

订阅专栏

deep learning

56 篇文章 6 订阅

订阅专栏

在这里插入图片描述

如何让电脑识别图片，图一通过CNN，然后转化为一个fully-connected 向量表示所有的pixel。那么如何让计算机分析句子，就需要用到同样的原理，如果人类要理解一句话，这句话并非你了解的语言，那么需要通过查字典来解决，字典把每个单词按照字母顺序编排好，然后我们按照单词顺序查询每个单词的意思即可。对于计算机，是无法识别字母的，可以通过把词向量转化为数字向量来代表。
如上图，可以通过one-hot vector来代表每一个词，但这样会有缺点，我们无法判断词与词之间的联系，如果有10万个词，每个词用10万维的向量表示，每个向量中，只有一个数字是1，代表这个单词，这样每个单词都是独立的。若要表示两个词之间的联系，比如猫和狗，如果用one-hot vector, 猫：[1,0,0,…,0], 狗：[0, 1, 0, …, 0], 我们很难找到它们之间的共同点，如果通过词向量的数字表示，猫：[0.999, 0, 0,…,0], 狗：[0.998, 0, 0, …, 0]，这样计算机能够判断它们是一类。这就是NLP中常用的word embeddings.
同样的道理，词组构成的词向量也是接近的，这样就能用于情感分析，比如通过爬虫爬到的电影评价，对电影打分排序。
那么如何构建词向量，并且能够让模型学习？比如常讲到的man + woman = queen, j就是这样的原理，看是没有关系，但模型却能正确表达结果。而模型能把所有已知的词汇都表达出来，并且能把所有词与词的之间的关系表达出来。
我们不用理解模型如何构建，只需理解如何应用即可，同过一种模型，比如stanford glove, 可以把词向量转化为数字，然后运用LSTM进行情感分析。
sentiment claasification:
The dessert is excellent. rating： 1
The dessert is bad. rating: 0
rating的结果是1，还是0，是有一句话中的每个单词决定的，每个单词都有不同的分数，然后各自乘以w, 权重，然后放到softmax, 得到结果，比如，结果是0.9， softmax之后就是1，代表正面评价。
如果对餐馆进行评价： The dessert is good, but I don’t like the restaurant, 那么可以用LSTM，来分析具体打分，因为I don’t like the restaurant，占比较高，所以结果是0。