基于深度学习的自然语言处理--笔记(第八章)

第8章 从文本特征到输入


前言

本章将讨论如何将一系列核心特征转换成分类器可接收的特征向量的细节。

8.1 编码分类特征

处理自然语言时用到的大部分特征是离散、分类特征,比如单词、字母和词性。我如何将这样的分类数据编码成便于统计分类器使用的形式呢?
我们将讨论独热( one hot)编码稠密嵌入向量两种方案,及两种方案间的权衡和关系。

8.1.1 独热编码

当用词袋模型表示包含 40 000 项的词表时,输入矩阵将会是40 000 维的向量,其中第 23 227 维对应单词 dog ,第 12 425 对应单词 cat 。一篇
20 个词的文档将由非常稀疏的 40 000 维向量表示,其中至多 20 维包含非零值。相应地权重矩阵 40 000 行,每行对应词表中一个单词。
这种方法即为onehot 编码,因为每一维对应一个单独特征,可以把结果特征向量想象为高维指示向量(其中只有一维值为1 ,其余维均为0 )的组合.

8.1.2 稠密编码(特征嵌入)

从稀疏输入的线性模型到深度非线性模型的最大概念跨越可能就是不再以独热 (one-hot )中的一维来表示各个特征,转而使用稠密向量表示,也就是每个核心特征都被嵌入到 d d d维空间中 ,并用空间中的一个向量表示。
基于前馈神经网络的 NLP 分类系统的一般结构如:

  1. 抽取一组和预测输出类别相关的核心语言学特征 f 1 , . . . , f k f_1,...,f_k f1,...,fk
  2. 对于每一个感兴趣的特征 f i f_i fi,检索出相应的向 量 v ( f i ) v(f_i) v(fi)
  3. 将特征向量组合成(拼接、相加或者两者组合)输入向量 x x x
  4. x x x输入到非线性分类器中(前馈神经网络)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值