在UTF-8编码中,一个汉字用4个字节(4 bytes)表示,即32个二进制位(32 bits)。
任何一个汉字都可以在UTF-8编码中用一个长度为32的0-1向量进行表示。由于单词本质
上是一个字符串,因此将单词的每个字符的向量化表示拼接起来就可以存储单词。然而,
这种方式有两种弊端。
1、存储信息只能代表词形,与单词的意义没有联系。而在自然语言处理中,让计算机
理解单词意义恰恰是理解语句、段落以及文档语义的关键。
2、单词越长,占用的存储空间越大,这使得长单词的理解十分困难。
为了解决单词向量化中的这些问题,研究者提出了独热编码(one-hot embedding)和
分布式表示。
1、独热编码
优点:计算简单,所有单词均可通过统一长度的向量进行表示
缺点:仍未解决单词语义问题,随着词典的增大,独热编码产生的向量长度也会增大。
2、分布式表示
将语义转化为距离进行表示。因此,在分布式表示的中寻找一个词的近义词就变成在
它的向量表示附近搜索其他词对应的向量。由此,便可以在向量表示中增加语义。此外,
分布式表示的另一个优势在于每个单词的向量长度都是固定的。这大大简化了对于短语
和句子的向量化处理。因此,在绝大多数的自然语言处理中,词向量均采用分布式表示
方法。通常,一个高质量的分布式表示并不易获得,通常需要借助数学建模和大规模语
料库。
向量化计算cell_03词的向量化
最新推荐文章于 2024-06-08 11:45:00 发布