词向量tf-idf、word2vec、glove

最新推荐文章于 2022-03-11 19:01:27 发布

青山遇绝壁

最新推荐文章于 2022-03-11 19:01:27 发布

阅读量3.7k

点赞数 1

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/qq_33151035/article/details/105028912

版权

本文介绍了词向量的基本概念，包括word2vec的CBOW和Skip-gram模型，以及tf-idf和glove的原理。word2vec通过上下文预测词来生成向量，tf-idf则根据词频和文档频率计算权重，glove综合局部和全局信息。文中还给出了在IMDB数据集上应用这些模型的示例。

摘要由CSDN通过智能技术生成

什么是词向量

词向量技术将自然语言中的词语转化为稠密的向量，相似的词会有相似的向量表示，这样的转化方便挖掘文字中词语和句子之间的特征。生成词向量的方法从一开始基于统计学的方法（共现矩阵、SVD分解）到基于不同结构的神经网络的语言模型方法。到现在为止已经有很多成熟的词向量模型，这里先总结一下最近用到的三种，其它一些模型等遇到了再做归纳。

1、word2vec词向量

word2vec来源于2013年的论文《Efficient Estimation of Word Representation in Vector Space》，它的核心思想是通过词的上下文得到词的向量化表示，有两种方法：CBOW（通过附近词预测中心词）、Skip-gram（通过中心词预测附近的词）：在这里插入图片描述

CBOW ：
通过目标词的上下文单词预测目标词，图中就是取大小为2的窗口，通过目标词前后两个词预测目标词。具体的做法是，设定词向量的维度d，对所有的词随机初始化为一个d维的向量，然后要对上下文所有的词向量编码得到一个隐藏层的向量，通过这个隐藏层的向量预测目标词，CBOW中的做法是简单的相加，然后做一个softmax的分类，例如词汇表中一个有V个不同的词，就是隐藏层d维的向量乘以一个W矩阵（ $R^{d×V}$ ）转化为一个V维的向量，然后做一个softmax的分类。由于V词汇的数量一般是很大的，每次训练都要更新整个W矩阵计算量会很大，同时这是一个样本不均衡的问题，不同的词的出现次数会有很大的差异，所以论文中采用了两种不同的优化方法多层Softmax和负采样。

Skip-gram :
跟CBOW的原理相似，它的输入是目标词，先是将目标词映射为一个隐藏层向量，根据这个向量预测目标词上下文两个词，因为词汇表大和样本不均衡，同样也会采用多层softmax或负采样优化

代码：以IMDB数据集为例，训练word2vec词向量模型，并将每一条电影评论转换成一条向量

import os, re
import numpy as np
import pandas as pd
from nltk.corpus import stopwords
import nltk
from bs4 import BeautifulSoup
from gensim.models import word2vec
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
nltk.download('stopwords')

# 读取数据，包括有标签的和无标签的数据
df_labeled = pd.read_csv(r"..\labeledTrainData.tsv", sep='\t', escapechar='\\')
df_unlabeled = pd.read_csv(r"..\unlabeledTrainData1.tsv", sep='\t', escapechar='\\')
sentences = []
for s in df_labeled['review']:
    sentences