万物皆可Embedding--oneHot编码

万物皆可Embedding–oneHot编码

假设一部电影的评分有五个档次,1-5分。不同的分值表示着评分人对电影偏好与否,分值的依次递进就表示情感不断升级。很显然,这里面的5个分值之间存在着某种联系。比例可以说2分和3分、1分最为接近,向上表示情感的增强,向下则表示情感的减弱;1分和5分是两个极端,象征着情感的两级。从这里来看,用数值的大小来对情感进行编码是极为合适的。从而可以抛出一个问题,假设五个事物之间不存在某种联系呢(暂时假设毫无联系),这种表示方式是否合适?

如果抛去大小之别,我们只是用数字编号来表示不同的东西,这种思路确实行得通。那好,那我们就运用这种思路,所有的字符、情感等事物都用数字来表示。至此,世间万物都存在于这种一维的数字空间里。比如“我”是1号数字,“喜欢”是5000号数字,“语文”是10000号数字。那么“我喜欢语文”,我们直接就用“1 5000 10000”来表示了。从思维逻辑来看,这里似乎已经不太符合人类的习惯。“喜”字可能是100号数字,“欢”字可能是200号数字,那么“喜欢”的表示方式为什么不是“100 200”呢?那是因为我把“喜欢”这个词直接也用一个数字进行替代了。从这种表示形式来看,“喜欢”这个词就压根不可能出现,也不能用一个数字替代,只能用“100 200”表示。然后我们又转念一想,这不对啊,汉字是由横竖点撇捺组成的,单个汉字也不能占据单个数字进行表示啊。至此,人类已经在一维数字空间里已经无法存活。

等等,咱们是不是跑题了,要聊的不是one-hot编码吗?不要急,通过上一段落,我们已经知道人类社会自然法则绝对不是一维空间。那是多少维空间呢?我也不知道,那我们不妨层层细分,细分到文本了,那其他维度均是“虚无”即0。咦,单个文本可能也是由无限维组成的,以此类推,我们用1表示“存在”,0表示“虚无”。我们似乎找到了无上法则,不管事物多少维,彷佛一生万物,多少有点禅意了。

所以,当我们用one-hot编码表示“我 喜欢 语文”时变成了[1 0 0],[0 1 0],[0 0 1],这里假设“我”、“喜欢”、“语文”依次是1-3号位置。至于这个1是否还包含了无限维度的知识,我们不管了。在当前这个环境,我们只用当前位置的1去逼近事物。

虽说按照之前的描述,事物确实是无限维的,但是咱可以归纳总结下。在某一个具体场景只考虑有限维,所以了,以后不要问OOV(out of vocabulary)怎么处理(1.学习到字词信息得到它的表征;2.无视它,直接用一个数字替代它)。长度好像解决了,但是就一个1,是不是有些稀疏了。万一一个事物并不能仅用一个维度表示呢,它是多维并存的。事实也确实如此,是我们逼近放宽有些随意了。但是这种哪个维度的占比,我们怎么学习到呢,我们有什么依据呢?更多内容将在“万物皆可Embedding–Word2vec”进行解密。

未完待续。。。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AlphaU

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值