词向量tf-idf、word2vec、glove

本文介绍了词向量的基本概念,包括word2vec的CBOW和Skip-gram模型,以及tf-idf和glove的原理。word2vec通过上下文预测词来生成向量,tf-idf则根据词频和文档频率计算权重,glove综合局部和全局信息。文中还给出了在IMDB数据集上应用这些模型的示例。
摘要由CSDN通过智能技术生成

什么是词向量

词向量技术将自然语言中的词语转化为稠密的向量,相似的词会有相似的向量表示,这样的转化方便挖掘文字中词语和句子之间的特征。生成词向量的方法从一开始基于统计学的方法(共现矩阵、SVD分解)到基于不同结构的神经网络的语言模型方法。到现在为止已经有很多成熟的词向量模型,这里先总结一下最近用到的三种,其它一些模型等遇到了再做归纳。


1、word2vec词向量

word2vec来源于2013年的论文《Efficient Estimation of Word Representation in Vector Space》,它的核心思想是通过词的上下文得到词的向量化表示,有两种方法:CBOW(通过附近词预测中心词)、Skip-gram(通过中心词预测附近的词):在这里插入图片描述

CBOW
通过目标词的上下文单词预测目标词,图中就是取大小为2的窗口,通过目标词前后两个词预测目标词。具体的做法是,设定词向量的维度d,对所有的词随机初始化为一个d维的向量,然后要对上下文所有的词向量编码得到一个隐藏层的向量,通过这个隐藏层的向量预测目标词,CBOW中的做法是简单的相加,然后做一个softmax的分类,例如词汇表中一个有V个不同的词,就是隐藏层d维的向量乘以一个W矩阵( R d × V R^{d×V} Rd×V)转化为一个V维的向量,然后做一个softmax的分类。由于V词汇的数量一般是很大的,每次训练都要更新整个W矩阵计算量会很大,同时这是一个样本不均衡的问题,不同的词的出现次数会有很大的差异,所以论文中采用了两种不同的优化方法多层Softmax和负采样。

Skip-gram :
跟CBOW的原理相似,它的输入是目标词,先是将目标词映射为一个隐藏层向量,根据这个向量预测目标词上下文两个词,因为词汇表大和样本不均衡,同样也会采用多层softmax或负采样优化


代码:以IMDB数据集为例,训练word2vec词向量模型,并将每一条电影评论转换成一条向量

import os, re
import numpy as np
import pandas as pd
from nltk.corpus import stopwords
import nltk
from bs4 import BeautifulSoup
from gensim.models import word2vec
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
nltk.download('stopwords')

# 读取数据,包括有标签的和无标签的数据
df_labeled = pd.read_csv(r"..\labeledTrainData.tsv", sep='\t', escapechar='\\')
df_unlabeled = pd.read_csv(r"..\unlabeledTrainData1.tsv", sep='\t', escapechar='\\')
sentences = []
for s in df_labeled['review']:
    sentences
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值