NLP修炼之旅（Day9）

最新推荐文章于 2019-04-27 20:56:54 发布

我就叫小灰灰

最新推荐文章于 2019-04-27 20:56:54 发布

阅读量153

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43314778/article/details/89479269

版权

文本表示：从one-hot到word2vec。
1.词袋模型：离散、高维、稀疏。
1.分布式表示：连续、低维、稠密。word2vec词向量原理并实践，用来表示文本

词袋模型
文本表示分为离散表示与分布式表示，其中词袋模型BoW(Bag-of-words)是n-gram语法模型的特例1元模型，该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档

词袋模型的实现方式：

One-Hot Encoding
只要在词典中出现的词，无论出现多少次，在BOW向量中都只算成1次，未出现的词算0次,然后根据词典构造只有0/1的向量
词频向量 TF
只要在词典中出现的词，出现多少次就算成多少次，未出现的词算0次，然后根据词典构造向量
TF-IDF
各文档中每个单词的出现次数除以该文档中所有单词的总数，也可以对词频进行归一化来降低这种影响

分布式表示
2.1 word2vec
如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做『Skip-gram 模型』
而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是『CBOW 模型』
2.1.1CBOW
CBOW 是 Continuous Bag-of-Words 的缩写，与神经网络语言模型不同的是，CBOW去掉了最耗时的非线性隐藏层
2.1.2Skip-gram
Skip-Gram的模型图与CBOW恰好相反

我就叫小灰灰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。