很多信息处理任务可能非常容易,也可能非常困难,这取决于信息是如何表示的。
贪心逐层无监督预训练
无监督学习在深度神经网络的复兴上起到了关键的、历史性的作用,它使研究者首次可以训练不含诸如卷积或者循环这类特殊结构的深度监督网络。我们将这一过程称为无监督与训练,或者更精确地,贪心逐层无监督预训练。
贪心逐层无监督预训练依赖于单层表示学习算法,例如RBM、单层自编码器、稀疏编码模型或其他学习潜在表示的模型。每一层使用无监督学习预训练,将前一层的输出作为输入,输出数据的新的表示。这个新的表示的分布有可能是简单的,如下所示:
给定如下:无监督特征学习算法 L \mathcal{L} L, L \mathcal{L} L使用训练集样本并返回编码器或特征函数 f f f。原始输入数据是 X X X,每行一个样本,并且 f ( 1 ) ( X ) f^{(1)}(X) f(1)(X)是第一阶段编码器关于 X X X的输出。在执行精调的情况下,我们使用学习者 T \mathcal{T} T,并使用初始函数 f f f,输入样本 X X X以及在监督精调情况下关联的目标 Y Y Y,并返回细调好函数。阶段数为 m m m。
f
←
f\leftarrow
f←恒等函数
X
~
=
X
\tilde{X} = X
X~=X
f
o
r
k
=
1
,
.
.
.
,
m
d
o
for \ k = 1, ... , m \ do
for k=1,...,m do
f
(
k
)
=
L
(
X
~
)
\quad f^{(k)} = \mathcal{L}(\tilde X)
f(k)=L(X~)
f
←
f
(
k
)
∘
f
\quad f \leftarrow f^{(k)}\circ f
f←f(k)∘f
X
~
←
f
(
k
)
(
X
~
)
\quad \tilde X\leftarrow f^{(k)}(\tilde X)
X~←f(k)(X~)
e
n
d
f
o
r
end \ for
end for
i
f
f
i
n
e
−
t
u
n
i
n
g
t
h
e
n
if \ \mathbb{fine-tuning} \ then
if fine−tuning then
f
←
T
(
f
,
X
,
Y
)
\quad f \leftarrow \mathcal T(f, X, Y)
f←T(f,X,Y)
e
n
d
i
f
end \ if
end if
R
e
t
u
r
n
f
Return \ f
Return f
基于无监督标准的贪心逐层训练过程,早已被用来规避监督问题中深度神经网络难以联合训练多层的问题。这种方法至少可以追溯到神经认知机。
在很多分类任务中,贪心逐层无监督能够在测试误差上获得重大提升,但也有一大部分是负优化。平均来看的效果是有轻微负面影响的。因此很有必要了解它在哪些方面能够有显著提升的效果。
首先要注意的是这个讨论大部分都是针对无监督预训练而言。还有很多其他完全不同的方法使用半监督学习来训练神经网络,例如虚拟对抗网络。还可以在训练监督模型时训练自编码器或生成模型。这中单阶段方法包括判别RBM和梯形网络,其中整体目标是两项之和。
迁移学习和领域自适应
迁移学习和领域自适应指的是利用一个情景中学到的内容去改善另一个情景中的泛化情况。
在迁移学习中,学习器必须执行两个或更多个不同的任务。
在领域自适应的相关情况下,每个情景之间的任务都是相同的,但是输入分布稍有不同。例如考虑情感分析的任务,如判断一条评论是表达积极的还是消极的情绪。
另一个相关的问题是概念漂移,我们也可以将其视为一种迁移学习,因为数据分布随着时间而逐渐变化。概念漂移和迁移学习都可以被视为多任务学习的特定形式。
半监督解释因果关系
表示学习的一个重要问题是“什么原因能够使一个表示比另一个表示更好”,一种假设是,理想表示中的特征对应到观测数据的潜在成因,特征空间中不同的特征或方向对应着不同的原因,从而表示能够区分这些原因。这个假设促使我们去寻找表示的更好方法。