NLP中embeding干了什么事?怎么干的?

基本常识

在做深度学习时,各种神经网络只能处理数字,不能处理文字,所以在输入前只能将文字转换成数字输入网络。那么embedding干的事情就是把文字转换成向量,且转换后的向量尽可能保留原文字的语意信息。

1.word2index

顾名思义就是简单的把词或字转换成相应的索引。(这种方式及其不推荐)

2.onehot

将字独热编码,这样稍好于第一种方法,但是缺陷也很明显,首先如果NLP任务重词量较大那么onehot维度将会非常大,其次onehot相当于任意个词之间是独立了(这不符合逻辑,‘不喜欢’和‘讨厌’语意相近。onehot他们是完全不相关的)

3.embedding

首先随机初始化初始(N,dim)的权重,N为训练任务的词的总个数(不重复的),dim是一个词embedding后的维度。在训练nlp任务时(N,dim)的权一起训练。
也可以使用预训练的方法来训练embedding。在进行NLP任务之前,先利用CBOW的方法预训练embedding,然后在把embedding的权重应用到自自己的NLP任务。embedding训练方法可以参考那
cs224n课程

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值