nlp入门3——特准输入

目录

一、稠密编码

稠密编码步骤&使用

稠密编码优势

二、组合稠密向量

四、其他的特征输入


一、稠密编码

得到具有特征含义的向量表示

a 为one-hot的表示表示一个词的特征——>表示的向量非常长

b 为稠密编码表示一个词的特征

稠密编码步骤&使用

词直接有相互关系 ——> 稠密编码

无关联,特征空间较小 ——> one-hot

稠密编码优势

nlp中的预训练是得到每个词的一个好的向量表示(每个词的一个合适的稠密编码)

二、组合稠密向量

f1~fk 为1~k个词的词向量(特征)

连续词带模型的优势:无论有多少个特征向量(词),最后都可以变为固定大小

CBOW模型的基本思想是,给定一个窗口内的上下文词汇,模型试图预测窗口中心的目标词汇(固定输入大小的原因)。

四、其他的特征输入

1 词与词的距离  词的位置 都可以作为特征输入

2 pad 把每句话填充为等长的句子,方便训练,填充的长度也可以作为一个特征(向量表示为0)    unk 表示不在词典里面的词,向量表示为0(无意义)

3 词丢弃 

4 特征组合(特征直接的交互)把词之间的特征进行组合 可能性多  一般采用非线性神经网络进行训练 

5 向量共享 

6 维度 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值