向量化计算cell_03词的向量化

最新推荐文章于 2024-06-08 11:45:00 发布

Kalu丁

最新推荐文章于 2024-06-08 11:45:00 发布

阅读量80

点赞数

文章标签：词向量独热编码分布式表示语义理解自然语言处理

本文链接：https://blog.csdn.net/weixin_35654096/article/details/112614252

版权

	
	在UTF-8编码中，一个汉字用4个字节（4 bytes）表示，即32个二进制位（32 bits）。
	任何一个汉字都可以在UTF-8编码中用一个长度为32的0-1向量进行表示。由于单词本质
	上是一个字符串，因此将单词的每个字符的向量化表示拼接起来就可以存储单词。然而，
	这种方式有两种弊端。

		1、存储信息只能代表词形，与单词的意义没有联系。而在自然语言处理中，让计算机
		理解单词意义恰恰是理解语句、段落以及文档语义的关键。
		2、单词越长，占用的存储空间越大，这使得长单词的理解十分困难。

	为了解决单词向量化中的这些问题，研究者提出了独热编码（one-hot embedding）和
	分布式表示。

	1、独热编码
		优点：计算简单，所有单词均可通过统一长度的向量进行表示
		缺点：仍未解决单词语义问题，随着词典的增大，独热编码产生的向量长度也会增大。
	2、分布式表示
		将语义转化为距离进行表示。因此，在分布式表示的中寻找一个词的近义词就变成在
		它的向量表示附近搜索其他词对应的向量。由此，便可以在向量表示中增加语义。此外，
		分布式表示的另一个优势在于每个单词的向量长度都是固定的。这大大简化了对于短语
		和句子的向量化处理。因此，在绝大多数的自然语言处理中，词向量均采用分布式表示
		方法。通常，一个高质量的分布式表示并不易获得，通常需要借助数学建模和大规模语
		料库。