论文学习：在线学习算法综述-CSDN博客

本文链接：https://blog.csdn.net/iyangdi/article/details/71544038

在线学习通过流式计算应对大数据的动态性、无序性和无限性，解决传统批处理学习的低效和概念迁移问题。文章介绍了在线线性学习，如感知器和稀疏学习算法，以及基于核的在线学习算法，如核感知器。进一步讨论了在线学习与深度学习的结合，提出使用降噪自编码器应对数据漂移，并探讨了在线学习算法的收敛性问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Title	Content
原文	在线学习算法综述
作者	潘志松

摘要

在线学习：
通过流式计算框架，在内存中直接对数据实时运算，为大数据的学习提供了有力的工具

流式数据特点：

传统学习方法归根结底是对某一静态数据分布的学习，没有提供学习数据分布变化规律的方法。这类分布随时间变化的数据称为非稳定数据or演化数据

针对流式数据传统批处理式学习方法的问题
（1）学习时间长、学习效率低
（2）难以针对增量数据有效地更新模型，导致难以有效地使模型适应数据中发生的概念迁移和概念演化问题

在线学习的流式计算模式
（1）为提高海量数据的学习效率，在线学习鉴定训练数据是连续到达的，每次训练只利用当前到达的样本更新模型，从而降低学习复杂度
（2）通过读取一次片段数据并在训练完后保留少量的样本、按照时间先后次序利用数据流对模型进行更新，从而保留最新的类别信息

在线学习算法演进
（1）最早——感知器算法：假设样本是线性可分的，当不可分时，需要采用基于核的感知器算法
（2）近年——在线核学习算法：面临的问题是，随着样本个数增加，与当前样本学习相关的有效集合中支持向量的数目会越来越大，解决方法有投影法、遗忘法、随机固定缓冲区的感知器法（RBP）

基于多任务的在线学习算法：
具有同时学习多个核函数、多任务的特徵联合在线学习能力

在线学习分类
（1）在线线性学习算法
（2）基于核的在线学习算法

感知器啊算法是最经典的在线学习二分类算法，目标是学习得到一个线性分类面 $f(x)=w^Tx$ , 对于新样本，用 $f(x)$ 的正负来判断分类

模型只有在出错的情况下才会更新，每次更新只需利用当前新样本，所以更新复杂度低

随着压缩感知（CS）技术发展，基于 $l_1$ 范式的稀疏优化技术引起注意
例：Lasso 通过 $l_1$ 正则化约束，在回归的同时可以进行特征选择，降低计算复杂度

稀疏解
（1）传统批处理模式——用全体训练样本可以获得
（2）在线学习——常用随机梯度下降算法，但是难以保证解的稀疏性，需要采用手段

获得在线学习稀疏解方法
（1）截断梯度法：（最简单直接）当待更新的权值小于设定的阈值则设置为0，否则继续更新权值
（2）前进后退分离法
（3）正则化对偶平均法

当样本线性不可分，常需要将样本特征向量 $x$ 映射到高维 Hillberet 空间 H， φ(x):Rd+1