word embeddings详细分析

在这里插入图片描述

  1. 如何让电脑识别图片, 图一通过CNN, 然后转化为一个fully-connected 向量表示所有的pixel。那么如何让计算机分析句子, 就需要用到同样的原理, 如果人类要理解一句话, 这句话并非你了解的语言,那么需要通过查字典来解决, 字典把每个单词按照字母顺序编排好, 然后我们按照单词顺序查询每个单词的意思即可。对于计算机, 是无法识别字母的, 可以通过把词向量转化为数字向量来代表。
  2. 如上图, 可以通过one-hot vector来代表每一个词, 但这样会有缺点, 我们无法判断词与词之间的联系, 如果有10万个词, 每个词用10万维的向量表示, 每个向量中, 只有一个数字是1, 代表这个单词, 这样每个单词都是独立的。若要表示两个词之间的联系, 比如猫和狗, 如果用one-hot vector, 猫:[1,0,0,…,0], 狗:[0, 1, 0, …, 0], 我们很难找到它们之间的共同点, 如果通过词向量的数字表示, 猫:[0.999, 0, 0,…,0], 狗:[0.998, 0, 0, …, 0], 这样计算机能够判断它们是一类。这就是NLP中常用的word embeddings.
  3. 同样的道理, 词组构成的词向量也是接近的, 这样就能用于情感分析, 比如通过爬虫爬到的电影评价, 对电影打分排序。
  4. 那么如何构建词向量, 并且能够让模型学习?比如常讲到的man + woman = queen, j就是这样的原理, 看是没有关系, 但模型却能正确表达结果。而模型能把所有已知的词汇都表达出来, 并且能把所有词与词的之间的关系表达出来。
  5. 我们不用理解模型如何构建, 只需理解如何应用即可, 同过一种模型, 比如stanford glove, 可以把词向量转化为数字, 然后运用LSTM进行情感分析。
  6. sentiment claasification:
    The dessert is excellent. rating: 1
    The dessert is bad. rating: 0
    rating的结果是1, 还是0, 是有一句话中的每个单词决定的, 每个单词都有不同的分数, 然后各自乘以w, 权重, 然后放到softmax, 得到结果, 比如, 结果是0.9, softmax之后就是1, 代表正面评价。
    如果对餐馆进行评价: The dessert is good, but I don’t like the restaurant, 那么可以用LSTM, 来分析具体打分, 因为I don’t like the restaurant, 占比较高, 所以结果是0。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值