文本向量化（理论篇）

最新推荐文章于 2024-03-15 10:12:54 发布

dishan4749253

最新推荐文章于 2024-03-15 10:12:54 发布

阅读量2.3k

点赞数 3

文章标签：人工智能

原文链接：http://www.cnblogs.com/dogecheng/p/11470196.html

版权

本文介绍常见的文本表示模型，One-hot、词袋模型（BOW）、TF-IDF、N-Gram和Word2Vec

一、离散表示
 1、One-hot编码
 2、词袋（BOW）模型
 3、TF-IDF
4、N-Gram模型

 二、分布式表示
 1、共现矩阵
 2、Word2Vec模型

One-hot编码是非常用的方法，我们可以用One-hot编码的方式将句子向量化，大致步骤为：

John likes to watch movies. Mary likes too

John also likes to watch football games.

上面的两句话分词后可以构造一个字典，字典内容如下，字典的键是词语，值是ID

{
   "John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}

我们可以根据ID值对每个词语进行向量化，用0和1代表这个词是否出现

# John
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
# too
[0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

用One-hot编码有明显的缺点：

词袋模型(Bag-of-words model，BOW)，BOW模型假定对于一个文档，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立

关注