读书笔记：Deep Learning[Ada-Computation&ML series]--chapter15.Representation learning

最新推荐文章于 2022-06-09 00:04:04 发布

John2King

最新推荐文章于 2022-06-09 00:04:04 发布

阅读量394

点赞数

分类专栏： DL 文章标签：表达学习迁移学习无监督预训练分布表达正则项

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lebula/article/details/52854247

版权

DL 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

part0.基本定义

1.好表达的定义：能够使得其后的学习变得容易的表达就是好的表达。所以一般取决于具体的任务。

2.表达学习常见的trade-off:保持更多信息vs更好的特性，比如独立性

part1.无监督预训练

1.它利用了两个idea

1)初始化的参数对于网络学习是一个正则项。

2）无监督阶段学习的信息对于有监督学习有帮助。

但是我们不清楚无监督的学习对于哪一种任务会有效。

这一点依赖于具体模型，比如对于与训练的feature后接一个线性分类器，那么特征会使得潜在的类别线性可分。

2.从学习表达的角度，如果初始表达很弱，那么会比较有效。比如用one-hot进行词表达，初始的表达不同的词距离相等，无法体现相似向量之间的关联。因此这个无监督与训练对于这类 NLP任务很有效。这也是为什么它对于图像一般没作用，图片像素之间的距离体现了低质量的相似性。

3.所学函数很复杂时也会有效。

4.预训练的优势：

1）把参数带入一个非预训练无法到达的地方。

2）预训练的参数更集中，估计过程具有更小的方差，可以抑制过拟合

3）可以同时降低训练和测试的误差

5.历史：预训练的使用远早于如今使用的一些trick，relu,dropout,BN之类的

6.缺点：

1）这种分两个阶段的训练，无法协调有监督与无监督二者的权重系数。网络一般包含大量超参数，此方法无法及时预先衡量正则化的作用，无法灵活适用正则化的能力。

2）每个阶段都是自己的超参数，第一阶段时，通常无法预测第二阶段的性能。因此第二阶段的超参数传回第一阶段去更新参数有一个比较大的延时。

7.现状：没落。。

1）大型或中性数据集上（每类大概5000），被现有DL方法超越

2）很小的数据集上，一般使用贝叶斯方法。

part2.迁移学习

1.定义：在分布P1下学习到的东西被拓展到分布P2上。可以用到上一部分提到的那样，我们将无监督学习得到的表达迁移到有监督学习中。

2.分类：

1）一般都是共享底层的信息，比如角落，边缘，形状等。

2）有些共享高层信息，比如语音识别。底层的信息各不相同，高层需要输出有效的句子。

3.极端的例子

1）one-shot learning：只用一个样本，特征学习到了可以清晰区分潜在类别的信息。

2）zero-shot learning: 没有样本，比如通过文字描述来学习。

part3.半监督拆解成因(disentangling of causal factors)

1.如何比较表达的好坏？

1）理想的表达是表达的特征对应观测数据的潜在成因。因此不同的特征对应不同的成因，表达可以将它们一个个拆解。

2）能够清晰分开潜在成因的表达未必是容易建模的。

3）但是巧合的是，上述两个因素通常同时发生：一旦我们获得了对于观测样本的潜在解释，通常都是很容易将它们彼此区分开来。

2.流程

表达 h表示了关于观测样本 x的很多潜在的成因，输出 y是其中最显著的。那么很容易通过h去预测y。

3.无效场景

如果无监督学习p(x)对于p(y | x)没有帮助

4.有效场景

可以用贝叶斯去拟合的场景。

5.如何决定成因是否显著？

1)autoencoder使用mse训练，容易忽略小的物体。

2)generative adversarial network，可以讲显著区域周边的区域也考虑进来，比如不会忽略人脸附近的耳朵。

part4.分布表达

1.定义：使用n个特征，每个有k个值，来表达一共k^n个不同概念。

2.与之相对的，非分布表达，比如one-hot表达。没有用明显的意义去区分类别。

3.非分布表达包括：聚类，KNN, 决策树，混合高斯，高斯核机器，比如svm，n-gram的语言模型

4.分布表达的优点：

1）蕴含了丰富的空间相似性，使得语意相似的概念可以得到较近的距离。

2）表达相同维度的空间，需要的参数数量更少。

3）虽然已经可以区分这么多不同的区域了，但是分布表达的能力依然是受限的。

比如w个参数的nn的vc维是wlogw,

分布表达虽然可以给每个表达空间赋予不同的编码，但是不是所有的编码空间都会被用到，也不能通过线性分类器去学到任意函数。

将分布表达与线性分类器结合起来，表达了先验就是要识别的类是线性可分的，可以被潜在的成因函数 h所捕获。因为一般而言，我们学习的类别不会需要非线性以及xor逻辑。比如不会把红色的牛跟白色的鸟分一类。

5.但是每个区域都对应一个类别。也就没有新的符号去定义新的区域了，同时会面临维度灾难，需要引入正则

6.顶层的每个特征的学习不需要见到其他特征的所有配置。比如，学习性别和是否戴眼镜，分布表达会把学习到的性别和眼镜拆解开来。eg:戴眼镜的男的-普通男 + 普通女 = 戴眼镜的女的

part5.通用正则项

平滑，线性，多个解释要素，成因，深度或者解释要素的层次组织，不同任务共享要素，流形，自然聚类，时序和空间连续，稀疏性，要素的简化依赖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读书笔记：Deep Learning[Ada-Computation&ML series]--chapter15.Representation learning

part0.基本定义1.好表达的定义：能够使得其后的学习变得容易的表达就是好的表达。所以一般取决于具体的任务。2.表达学习常见的trade-off:保持更多信息vs更好的特性，比如独立性part1.无监督预训练1.它利用了两个idea1)初始化的参数对于网络学习是一个正则项。2）无监督阶段学习的信息对于有监督学习有帮助。但是我们不清楚无监督的学习对于哪一种任务会
复制链接

扫一扫

专栏目录

目录

分类专栏

CV 10篇
C++ 16篇
DL 15篇
Draft 1篇
Torch 2篇
Math 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。