基于深度学习的自然语言处理--笔记（第八章）

以牺牲自由为代价的自由

于 2020-08-30 21:14:55 发布

阅读量348

点赞数

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42623328/article/details/108308482

版权

第8章从文本特征到输入

文章目录

前言
8.1 编码分类特征
8.2 组合稠密向量
- 8.2.1 基于窗口的特征
- 8.2.2 可变特征数目：连续词袋
8.3 独热和稠密向量间的关系
8.4 杂项

前言

本章将讨论如何将一系列核心特征转换成分类器可接收的特征向量的细节。

8.1 编码分类特征

处理自然语言时用到的大部分特征是离散、分类特征，比如单词、字母和词性。我如何将这样的分类数据编码成便于统计分类器使用的形式呢？
我们将讨论独热（ one hot）编码和稠密嵌入向量两种方案，及两种方案间的权衡和关系。

8.1.1 独热编码

当用词袋模型表示包含 40 000 项的词表时，输入矩阵将会是40 000 维的向量，其中第 23 227 维对应单词 dog ，第 12 425 对应单词 cat 。一篇
20 个词的文档将由非常稀疏的 40 000 维向量表示，其中至多 20 维包含非零值。相应地权重矩阵 40 000 行，每行对应词表中一个单词。
这种方法即为onehot 编码，因为每一维对应一个单独特征，可以把结果特征向量想象为高维指示向量（其中只有一维值为1 ，其余维均为0 ）的组合.

8.1.2 稠密编码（特征嵌入）

从稀疏输入的线性模型到深度非线性模型的最大概念跨越可能就是不再以独热（one-hot ）中的一维来表示各个特征，转而使用稠密向量表示，也就是每个核心特征都被嵌入到 $d$ 维空间中，并用空间中的一个向量表示。
基于前馈神经网络的 NLP 分类系统的一般结构如：

抽取一组和预测输出类别相关的核心语言学特征 $f_1,...,f_k$
对于每一个感兴趣的特征 $f_i$ ，检索出相应的向量 $v(f_i)$
将特征向量组合成（拼接、相加或者两者组合）输入向量 $x$
将 $x$ 输入到非线性分类器中（前馈神经网络）

最低0.47元/天解锁文章

以牺牲自由为代价的自由

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于深度学习的自然语言处理--笔记（第八章）

第8章从文本特征到输入文章目录前言8.1 编码分类特征8.1.1 独热编码8.1.2 稠密编码（特征嵌入）8.1.3 稠密向量与独热表示8.2 组合稠密向量8.2.1 基于窗口的特征8.2.2 可变特征数目：连续词袋8.3 独热和稠密向量间的关系8.4 杂项8.4.3 特征组合8.4.4 向量共享8.4.5 维度前言本章将讨论如何将一系列核心特征转换成分类器可接收的特征向量的细节。8.1 编码分类特征处理自然语言时用到的大部分特征是离散、分类特征，比如单词、字母和词性。我如何将这样的分
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。