Title | Content |
---|---|
原文 | 在线学习算法综述 |
作者 | 潘志松 |
摘要
在线学习:
通过流式计算框架,在内存中直接对数据实时运算,为大数据的学习提供了有力的工具
引言
流式数据特点:
- 动态性
- 无序性
- 无限性
- 突发性
- 体积大
传统学习方法归根结底是对某一静态数据分布的学习,没有提供学习数据分布变化规律的方法。这类分布随时间变化的数据称为非稳定数据or演化数据
针对流式数据传统批处理式学习方法的问题
(1)学习时间长、学习效率低
(2)难以针对增量数据有效地更新模型,导致难以有效地使模型适应数据中发生的概念迁移和概念演化问题
在线学习的流式计算模式
(1)为提高海量数据的学习效率,在线学习鉴定训练数据是连续到达的,每次训练只利用当前到达的样本更新模型,从而降低学习复杂度
(2)通过读取一次片段数据并在训练完后保留少量的样本、按照时间先后次序利用数据流对模型进行更新,从而保留最新的类别信息
在线学习算法演进
(1)最早——感知器算法:假设样本是线性可分的,当不可分时,需要采用基于核的感知器算法
(2)近年——在线核学习算法:面临的问题是,随着样本个数增加,与当前样本学习相关的有效集合中支持向量的数目会越来越大,解决方法有投影法、遗忘法、随机固定缓冲区的感知器法(RBP)
基于多任务的在线学习算法:
具有同时学习多个核函数、多任务的特徵联合在线学习能力
在线学习分类
(1)在线线性学习算法
(2)基于核的在线学习算法
1 在线线性学习算法
1.1 感知器算法
感知器啊算法是最经典的在线学习二分类算法,目标是学习得到一个线性分类面 f(x)=wTx , 对于新样本,用 f(x) 的正负来判断分类
模型只有在出错的情况下才会更新,每次更新只需利用当前新样本,所以更新复杂度低
1.2 稀疏在线学习算法
随着压缩感知(CS)技术发展,基于 l1 范式的稀疏优化技术引起注意
例:Lasso 通过 l1 正则化约束,在回归的同时可以进行特征选择,降低计算复杂度
稀疏解
(1)传统批处理模式——用全体训练样本可以获得
(2)在线学习——常用随机梯度下降算法,但是难以保证解的稀疏性,需要采用手段
获得在线学习稀疏解方法
(1)截断梯度法:(最简单直接)当待更新的权值小于设定的阈值则设置为0,否则继续更新权值
(2)前进后退分离法
(3)正则化对偶平均法
2 基于核的在线学习算法
当样本线性不可分,常需要将样本特征向量 x 映射到高维 Hillberet 空间 H,