词向量简介
词向量(Word Embedding)是自然语言处理中常用的一种表示文本的方法,它将单词映射到一个低维实数向量空间中的向量表示。词向量的出现很大程度上解决了传统文本处理方法中的维度灾难问题,并且能够捕捉到单词之间的语义和语法关系。
1. One-Hot Encoding的问题
在介绍词向量之前,我们先来了解一下传统的文本表示方法:One-Hot Encoding。One-Hot Encoding 将每个单词表示为一个高维的向量,其中只有一个维度为1,其余维度均为0,该维度对应于词汇表中的一个单词。
例如,假设我们有一个包含5个单词的词汇表:[“apple”, “banana”, “cat”, “dog”, “elephant”]。使用 One-Hot Encoding,我们可以将这些单词表示如下:
"apple" [1, 0, 0, 0, 0]
"banana" [0, 1, 0, 0, 0]
"cat" [0, 0, 1, 0, 0]
"dog" [0, 0, 0, 1, 0]
"elephant" [0, 0, 0, 0, 1]
尽管 One-Hot Encodin