Structured learning的解决方法概述
对于第32讲,第一个问题可以使用specific model进行具体化,如下图所示,将Fuction表示为特定的characteristics的组合。
对于需要的feature,可以使用CNN进行,对于输出结果(例如,object detection的bounding box内的图像,文本总结的输出总结段,搜索列表的输出)的特征进行抽取,得到表示的特征。
第三个问题针对输入的training data,如何找到w,使得下图条件被满足,对于所有训练数据,如何找到合适的w,使得F(x,y)大于任意其他情况。
以下介绍如何求解该最优化问题的方法。如下图所示,该方法structured perceptron的说明为:输入为训练数据
{(x1,y^1),(x2,y^2),...,(xN,y^N)}
{
(
x
1
,
y
^
1
)
,
(
x
2
,
y
^
2
)
,
.
.
.
,
(
x
N
,
y
^
N
)
}
,需要寻找一个weight vector,使得F(x,y)最大,也就是上图所示。任取一组训练数据
(xn,y^n)
(
x
n
,
y
^
n
)
,找到在空间Y中的一个样本
y~n
y
~
n
,对应最大的
ϕ(xn,y)
ϕ
(
x
n
,
y
)
。这点在第二步已经解决。
当
y~n
y
~
n
与
y^n
y
^
n
不一致,则需要按照上图更新
w
w
。
对于structured perceptron,其收敛性证明如下图。首先说明逐渐靠近 w^ w ^ 。这一页证明了夹角余弦值的分子部分逐渐增加。
为了考虑分母部分,假设
w^=1
w
^
=
1
,仅考虑
wk
w
k
。这样可以获得
由于余弦值小于1,所以对于迭代次数存在一个上限。