论文学习:在线学习算法综述

在线学习通过流式计算应对大数据的动态性、无序性和无限性,解决传统批处理学习的低效和概念迁移问题。文章介绍了在线线性学习,如感知器和稀疏学习算法,以及基于核的在线学习算法,如核感知器。进一步讨论了在线学习与深度学习的结合,提出使用降噪自编码器应对数据漂移,并探讨了在线学习算法的收敛性问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Title Content
原文 在线学习算法综述
作者 潘志松

摘要

在线学习:
通过流式计算框架,在内存中直接对数据实时运算,为大数据的学习提供了有力的工具

引言

流式数据特点:

  • 动态性
  • 无序性
  • 无限性
  • 突发性
  • 体积大

传统学习方法归根结底是对某一静态数据分布的学习,没有提供学习数据分布变化规律的方法。这类分布随时间变化的数据称为非稳定数据or演化数据

针对流式数据传统批处理式学习方法的问题
(1)学习时间长、学习效率低
(2)难以针对增量数据有效地更新模型,导致难以有效地使模型适应数据中发生的概念迁移和概念演化问题

在线学习的流式计算模式
(1)为提高海量数据的学习效率,在线学习鉴定训练数据是连续到达的,每次训练只利用当前到达的样本更新模型,从而降低学习复杂度
(2)通过读取一次片段数据并在训练完后保留少量的样本、按照时间先后次序利用数据流对模型进行更新,从而保留最新的类别信息

在线学习算法演进
(1)最早——感知器算法:假设样本是线性可分的,当不可分时,需要采用基于核的感知器算法
(2)近年——在线核学习算法:面临的问题是,随着样本个数增加,与当前样本学习相关的有效集合中支持向量的数目会越来越大,解决方法有投影法、遗忘法、随机固定缓冲区的感知器法(RBP)

基于多任务的在线学习算法:
具有同时学习多个核函数、多任务的特徵联合在线学习能力

在线学习分类
(1)在线线性学习算法
(2)基于核的在线学习算法

1 在线线性学习算法

1.1 感知器算法

感知器啊算法是最经典的在线学习二分类算法,目标是学习得到一个线性分类面 f(x)=wTx , 对于新样本,用 f(x) 的正负来判断分类

模型只有在出错的情况下才会更新,每次更新只需利用当前新样本,所以更新复杂度低

1.2 稀疏在线学习算法

随着压缩感知(CS)技术发展,基于 l1 范式的稀疏优化技术引起注意
例:Lasso 通过 l1 正则化约束,在回归的同时可以进行特征选择,降低计算复杂度

稀疏解
(1)传统批处理模式——用全体训练样本可以获得
(2)在线学习——常用随机梯度下降算法,但是难以保证解的稀疏性,需要采用手段

获得在线学习稀疏解方法
(1)截断梯度法:(最简单直接)当待更新的权值小于设定的阈值则设置为0,否则继续更新权值
(2)前进后退分离法
(3)正则化对偶平均法

2 基于核的在线学习算法

当样本线性不可分,常需要将样本特征向量 x 映射到高维 Hillberet 空间 H, φ(x):Rd+1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值