Task5-基于深度学习的文本分类2

最新推荐文章于 2022-11-01 17:01:34 发布

baidu_41253024

最新推荐文章于 2022-11-01 17:01:34 发布

阅读量165

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_41253024/article/details/107710882

版权

word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线学习算法（online learning）

先来看一下官网的介绍：Using large amounts of unannotated plain text, word2vec learns relationships between words automatically. The output are vectors, one vector per word, with remarkable linear relationships that allow us to do things like:

vec(“king”) - vec(“man”) + vec(“woman”) =~ vec(“queen”)
vec(“Montreal Canadiens”) – vec(“Montreal”) + vec(“Toronto”) =~ vec(“Toronto Maple Leafs”).

即wordtowec输出是矢量，每一个矢量对应一个词，这些矢量具有明显的线性关系，如king-men+women输出的结果是queen

当然，wordtowec是相对于之前的wordbag提升了很多，先从原理来看：

以官网给出的例子

John likes to watch movies. Mary likes movies too.

John also likes to watch football games. Mary hates football.

所输出的词向量：

[1, 2, 1, 1, 2, 1, 1, 0, 0, 0, 0]
[1, 1, 1, 1, 0, 1, 0, 1, 2, 1, 1]

其中每一个向量有十个元素，每一个元素是计算特定词出现在文档中的次数，当然，元素的顺序是随机的。上面每一个元素对应的单词如下

["John", "likes", "to", "watch", "movies", "Mary", "too", "also", "football", "games", "hates"].

word-of-bag模型也有其缺点

1 失去了所有关与顺序的信息，如“John likes Mary” 和 “Mary likes John” 顺序不同意思也不同，给出的解决方案：word-of-bag模型将长度为n的单词短语作为固定长度的向量表示文档，以获取局部词序，但存在数据稀疏性和高维性问题。

2 其次，该模型并不尝试学习底层单词的含义，因此，向量之间的距离并不总是反映意义上的差异。Word2Vec模型解决了第二个问题

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task5-基于深度学习的文本分类2

word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本，我们选取一个上下文窗口和一个中心词，并基于这个中心词去预测窗口里其他词出现的概率。因此，word2vec模型可以方便地从新增语料中学习到新增词的向量表达，是一种高效的在线学习算法（online learning）先来看一下官网的介绍：Using large amounts of unannotated plain text, word2vec learns relationships between words a
复制链接

扫一扫

博客等级

码龄7年

28
原创

27
点赞

41
收藏

29
粉丝

关注

私信

热门文章

最新评论

task2 ocr识别改进
CSDN-Ada助手: 非常感谢CSDN博主分享的<task2 ocr识别改进>的博客，我觉得文章内容十分实用，并且对于OCR识别算法的改进有很好的指导作用。我建议下一篇博客可以从<OCR识别算法优化>的角度出发，深入探讨如何提高OCR识别的准确率和效率，这对于需要进行大规模OCR识别的用户非常有帮助。相信会有更多的读者期待你的下一篇文章。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
task2 ocr识别改进
大家一起学编程（python）: 大佬666
task-11 xgb算法实战
LaoYuanPython: 博主又出新作，辛苦了！算法研究很有前途！
Task2 数据分析与处理
qq_44321367: 大佬厉害

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。