向量化计算cell_03词的向量化

9bf47562f88011f9cb83c7f06534f494.png
	
	在UTF-8编码中,一个汉字用4个字节(4 bytes)表示,即32个二进制位(32 bits)。
	任何一个汉字都可以在UTF-8编码中用一个长度为32的0-1向量进行表示。由于单词本质
	上是一个字符串,因此将单词的每个字符的向量化表示拼接起来就可以存储单词。然而,
	这种方式有两种弊端。

		1、存储信息只能代表词形,与单词的意义没有联系。而在自然语言处理中,让计算机
		理解单词意义恰恰是理解语句、段落以及文档语义的关键。
		2、单词越长,占用的存储空间越大,这使得长单词的理解十分困难。

	为了解决单词向量化中的这些问题,研究者提出了独热编码(one-hot embedding)和
	分布式表示。

	1、独热编码
		优点:计算简单,所有单词均可通过统一长度的向量进行表示
		缺点:仍未解决单词语义问题,随着词典的增大,独热编码产生的向量长度也会增大。
	2、分布式表示
		将语义转化为距离进行表示。因此,在分布式表示的中寻找一个词的近义词就变成在
		它的向量表示附近搜索其他词对应的向量。由此,便可以在向量表示中增加语义。此外,
		分布式表示的另一个优势在于每个单词的向量长度都是固定的。这大大简化了对于短语
		和句子的向量化处理。因此,在绝大多数的自然语言处理中,词向量均采用分布式表示
		方法。通常,一个高质量的分布式表示并不易获得,通常需要借助数学建模和大规模语
		料库。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值