word2vec\fastText-gensim实战

本文介绍了词向量的重要性和word2vec模型,包括skip-gram和CBOW两种模型,强调了词上下文对词向量表示的影响。此外,文章还探讨了FastText模型,它是word2vec的扩展,利用词的n-gram特性来解决未登录词问题,尤其适合处理长词和新词。
摘要由CSDN通过智能技术生成

词向量简介

词向量指的是一个词的向量表示。如果你希望计算机能够进行一些复杂点的文本语义学习,你必须得将文本数据编码成计算机能够处理的数值向量吧,所以词向量是一个自然语言处理任务中非常重要的一环。

词向量模型word2vec

那我们如何得到上述具有语义Distributional representations的词向量呢,2013年提出的word2vec的方法就是一种非常方便得到高质量词向量的方式。其主要思想是:一个词的上下文可以很好的表达出词的语义,它是一种通过无监督的学习文本来用产生词向量的方式。word2vec中有两个非常经典的模型:skip-gram和cbow。
模型任务:
skip-gram:已知中心词预测周围词。
cbow:已知周围词预测中心词。

比如 “the quick brown fox jumps over the lazy dog” 如果定义window-size为2的话,就会产生如下图所示的数据集,window-size决定了目标词会与多远距离的上下文产生关系:
Skip-Gram:(the,quick) ,其中the 是模型的输入,quick是模型的输出。
Cbow: ((quick,brown),the) ,其中 (quick,brown)是模型的输入,the是模型的输出。
训练数据生成如下图
在这里插xun入图片描述

skip-gram,cbow的模型架

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值