自然语言处理之词向量技术（二）

最新推荐文章于 2024-04-15 11:18:55 发布

智享AI

最新推荐文章于 2024-04-15 11:18:55 发布

阅读量1.2k

点赞数

分类专栏：深度学习文章标签：自然语言处理

本文链接：https://blog.csdn.net/guangzhanblog/article/details/110421587

版权

34 篇文章 7 订阅

订阅专栏

词向量（word2vec）是一种表示自然语言中单词的方法，即把每个词都表示为一个N维空间内的点，即一个高维空间内的向量，通过这种方法，把自然语言计算转换为向量计算。词向量的基本内容包括：

挑战一：如何把词转换为向量？自然语言单词是离散信号，比如“香蕉”、“橘子”、“水果”在我们看来就是3个离散的词。我们应该如何把离散的单词转换为一个向量。
挑战二：如何让向量具有语义信息？我们知道，“香蕉”和“橘子”更加相似，而“香蕉”和“句子”就没有那么相似，同时，“香蕉”和“食物”，“水果”的相似程度，可能介于“橘子”和“句子”之间。那么，我们该如何让词向量具备这样的语义信息？

词袋模型(Bag of Words，简称BoW)，即将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的，把每一个单词都进行统计，同时计算每个单词出现的次数。
词袋模型的三部曲：分词（tokenizing），统计修订词特征值（counting）与标准化（normalizing）。
文档的向量表示可以直接将各词的词向量表示加和。

N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。
每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度

关注

专栏目录