【特征学习】以深度学习和词嵌入为基础的特征学习

最新推荐文章于 2023-03-04 11:42:20 发布

晴天qt01

最新推荐文章于 2023-03-04 11:42:20 发布

阅读量306

点赞数

分类专栏：数据挖掘文章标签：大数据机器学习算法数据挖掘数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq1021091799qq/article/details/125804824

版权

数据挖掘专栏收录该内容

53 篇文章 16 订阅

订阅专栏

1. 1. 深度学习为基础的特征学习

Autoencoder：深度学习进行一个压缩降维。

输入字段——》经过很多隐藏层——》降维结果**——》再次经过很多隐藏层（对称）——》输出字段（就是输入字段）

为什么需要再次经过隐藏层呢？因为只有证明他能再被隐藏层还原为原资料字段，才能表示他的信息没有损失。

这就是Autoencoder的架构

Encoder部分是压缩输入字段，Decoder部分就是为了将降维的维度回复。可以舍弃

我们需要的是Encoder model 的结果，其实就是一个数据预处理（特征工程）的步骤。Code这个结果继续向下做。

Autoencoder是无监督学习，与目标字段无关。先压缩，在解压缩这种过程。但是它最特殊的地方是，虽然没有用到目标字段，但是它用的是有监督学习方法，监督的字段是自身，所以也被叫做self supervised 自我监督模型。

实际做算法的时候效果是很不错的。

案例：我们用了一个逻辑回归的的模型做一个分类字段预测

标准化后偶读准确率是0.89

Autoencoder Model准确率为0.94

提高了百分之5，本身准确率就很高了，这个还能提高百分之5是很不容易的事情。之后会细说

案例Regression（Support Vector Regressor（支持向量机））

标准模型预测出的MAE（平均绝对误差）：0.8951

Autoencoder Model MAE：0.6946

误差降低很大。

到时候实际尝试一下就可以体会到。

数字图像处理的案例:

Encoder Decoder一般都是镜像对称的。

Z是我们需要低维度的降维结果，如果输出结果和输入结果十分相似

几个Autoencoder的变型：

AE是神经网络的一种非监督式的学习算法，被称为自动编码器。它可以帮助数据分类，可视化，储存

架构可以细分为编码器（encoder）和解码器（decoder）。做压缩和解压缩的动作，让输入和输出的结果几乎相同

编码器和解码器里一般有对称的几个隐藏层，隐藏层是能把输入信息变成低维信息的一个投影向量。

如图所示，降维效果很好。

VAE（Variational）：在标准的AE中添加了一步约束，它会在编码器结束阶段添加一个取样动作，查看平均值和标准差，确保压缩结果服从单位高斯分布。

具体过程如图

DAE（Denoising）

它希望输出结果能把输入结果的杂质排除，让信息变的更清晰干净。

它是一种学习对图片去噪，

做法：会故意把input打上一些noise，然后目标具有是原始无噪声的数据。使模型学会去噪的能力。

SAE（Sparse AE）：类似深度学习CNNFilter（不进行全连接）

做法：在AE的基础是，增加一个显著使压缩结果Representation尽量稀释，也就是只和最少的输入字段有关系。将每个输入表示为少量节点的组合，只有一小部分节点有数值。称为活动节点。

原因是：稀疏的过程中可以过滤掉无用的信息，会每个节点也叫神经元，可以辨别特定输入信息的专家，就能用更少的时间给出比原始数据更好的特征描述。

RBM受限波尔兹曼机：这是相当于限制版的AE，AE的encoder和decoder权重是有可能不一致的，但是RBM的权重完全一致，他的encoder和decoder完全对称。直接相等。图示如下

压缩的结果，直接通过原权重回归输入字段，RBM希望输入字段与原先输入字段完全相同。

可以被于深度学习网络，深度信念网络使用多个RBM堆栈而成。可以重复堆叠，可以用梯度下降法和反向传播算法进行调优化。

1. 1. 词嵌入为基础的特征学习。

词嵌入是一种将文本的词转化成数字向量的方法。

词嵌入的过程就是把一个维数为所有词数量的高维空间嵌入到一个维度低得多（200-300）维的空间。每个单词和词组被映射为实数域上的数值向量，词嵌入结果就生成了词向量

如图，我们选择一个词，这个词在5000个词语中，那么它的数值为1，把它放到300个向量（词嵌入向量，一定远小于词总数）

King-man+woman=queen

不但把词嵌入了向量空间，还有语义的留存。

案例：

词袋模型就是用hot遍布的向量转化编码，然后把各自的词出现概率求出，作为文件的表示方式。每个词都代表一个维度（没有权重）

词嵌入模型编码方式后面会具体说明，它文章表示方法的求法是进行一个向量求和。最后也要除以6经过词嵌入向量的（已经在向量中就具有权重了）

的

Part3下次更新文本分析会具体说明

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【特征学习】以深度学习和词嵌入为基础的特征学习

深度学习和词嵌入为基础的特征学习
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

晴天qt01 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。