相关名词:
an instance of the Lasso:??
vec::向量化
L1\L2 regularization term :??
i.i.d:独立同分布
a.s:almosrt sure 全概率成立
sparse coding:??
l论文中的Proof sketch??
如何推导??
-------范数类别:
-------L为基向量向量空间,k*d K个 长度为d的基向量组成。
theta(t)表示 L每一列的线性组合 ,至于他们的权重向量为S(t).
--------下示公式不适合终身机器学习的原因:
1、需要到和所有以前的训练数据相关的总和,该论文通过泰勒展开来解决这个不足
泰勒展开抑制了常数项和线性项,只留下二次项。delta X=theta(t)-L*s(t), L是函数的自变量,delta不是确值,Xo=theta(t)。
2、为了评估一个新的L,T个 s(t)又要重新计算一次,当T越来越大的时候,会越来越。(通过gT公式我们可以看出来),该论文移除公式(2)中s(t)的min,当有 第t 任务来的时候只更新对应的s(t),而其他的s(t)不改变。这样的做法 得益于接下来的修改L上。
-----------D(t)的尺寸为d*d.s(t)为k*1,L为d*k,,theta(t)为d*1
---------Lipschitz 条件
-----------ELLA 和GO-MTL 比较:让我们知道两个模型正确率之间的关系。
-----------ELLA 和OMTL:让我们知道相对于其他的终身机器学习方法ELLA的效率。
------------S(t)的稀疏值为0.5,意思为:用一般数量的隐藏基来表征参数
-----------可以拓展的方向:
1、确定K值
2、优化L值
3、确定s的稀疏值
---------需要看得内容:STL GO-MTL OMTL