NLP从词袋到Word2Vec的文本表示

最新推荐文章于 2024-10-07 23:14:51 发布

mantchs

最新推荐文章于 2024-10-07 23:14:51 发布

阅读量2k

点赞数 5

分类专栏： machine learning 文章标签： NLP 机器学习 Word2Vec 词袋 TF-IDF

本文链接：https://blog.csdn.net/weixin_41510260/article/details/90046989

版权

本文介绍了NLP中文本表示的发展，从离散表示如One-hot、词袋模型、TF-IDF和n-gram模型，到分布式表示的共现矩阵、神经网络模型如NNLM和Word2Vec，讨论了各种方法的优缺点及解决的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在NLP(自然语言处理)领域，文本表示是第一步，也是很重要的一步，通俗来说就是把人类的语言符号转化为机器能够进行计算的数字，因为普通的文本语言机器是看不懂的，必须通过转化来表征对应文本。早期是基于规则的方法进行转化，而现代的方法是基于统计机器学习的方法。

数据决定了机器学习的上限,而算法只是尽可能逼近这个上限，在本文中数据指的就是文本表示，所以，弄懂文本表示的发展历程，对于NLP学习者来说是必不可少的。接下来开始我们的发展历程。文本表示分为离散表示和分布式表示：

One-hot简称读热向量编码，也是特征工程中最常用的方法。其步骤如下：

例如：John likes to watch movies. Mary likes too

John also likes to watch football games.

以上两句可以构造一个词典，**{“John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”: 6, “football”: 7, “games”: 8, “Mary”: 9, “too”: 10} **

每个词典索引对应着比特位。那么利用One-hot表示为：

**John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0] **

likes: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0] …等等，以此类推。

One-hot表示文本信息的缺点：

词袋模型(Bag-of-words model)，像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现，这种表现方式不考虑文法以及词的顺序。

文档的向量表示可以直接将各词的词向量表示加和。例如：

John likes to watch movies. Mary likes too

John also likes to watch football games.

那么第一句的向量表示为：[1,2,1,1,1,0,0,0,1,1]，其中的2表示likes在该句中出现了2次，依次类推。

词袋模型同样有一下缺点：

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。

字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。

$TF_w=\frac{在某一类中词条w出现的次数}{该类中所有的词条数目}$