NLP系列 4. 文本表示

最新推荐文章于 2024-09-17 09:15:00 发布

sherpahu

最新推荐文章于 2024-09-17 09:15:00 发布

阅读量452

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/sherpahu/article/details/90288384

版权

机器学习专栏收录该内容

20 篇文章 1 订阅

订阅专栏

词袋模型——离散、高维、稀疏

基本介绍

词袋模型是一种很基础的文本表示模型。
通俗的理解就是把一段文本看做一个袋子，并且忽略词出现的顺序。具体而言，就是将文本以词为单位切分开，每篇文章可以表示为一个长向量，向量中的每一维代表一个单词，而其权重反映了这个词的重要程度，常用前面博客中所叙述的TF-IDF计算权重。
完全忽略词的出现顺序也不是很好，词与词之间的有机组合方才构成了一段文本的语义，这时候也常用到n-gram作为单独的特征放到向量表示中。
词袋模型在用向量表示文本时，也可能出现向量过于稀疏的问题。

sklearn实现

第一种模式

出现就算1，没出现就算0
下面以之前博客中介绍过的THUCnews为例

from sklearn.feature_extraction.text import CountVectorizer
vectorizer=CountVectorizer(binary=True)

f=open('cnews.val.txt','r',encoding='utf-8')
text=[x for (i,x) in zip(range(1),f.readlines())]
print(text)
#text = ["The quick brown fox jumped over the lazy dog."]
module=vectorizer.fit(text)
print(module.vocabulary_)
vector=vectorizer.transform(text)
print(vector.toarray())

在这里插入图片描述

第二种方式

用TF-IDF计算词向量权重

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer=TfidfVectorizer()#第二种

f=open('cnews.val.txt','r',encoding='utf-8')
text=[x for (i,x) in zip(range(2),f.readlines())]
print(text)
#text = ["The quick brown fox jumped over the lazy dog."]
module=vectorizer.fit(text)
print(module.vocabulary_)
vector=vectorizer.transform(text)
print(vector.toarray())

在这里插入图片描述

分布式表示——连续、低维、稠密

最简单的词向量就是上面所说的词袋模型以及独热（one-hot）表示方法了，这种方法会导致向量过于稀疏的问题。
而分布式表示（Distributional Representation）可以很好地解决这个问题。
简单来说，分布式表示就是将词向量映射为一个个短向量，并且映射到一个向量空间中，这样就可以通过向量间的距离表示词向量之间的关联与差异。
分布式表示，顾名思义就是将词向量表示为低维、稠密的连续向量，将词向量分布到空间中。
英语西语词向量的分布式表示：
在这里插入图片描述