增量学习解决概念漂移思路与集成增量学习简述

增量学习解决概念漂移思路与集成增量学习简述

第一章 概念漂移论述
第二章 增量学习论述
第三章 集成学习论述
第四章 如何解决时序概念漂移问题
第五章 增量集成学习算法逻辑设计

一、概念漂移论述

概念漂移是目标变量随时间变化发生改变的现象,产生稳定性-可塑性危机,就是一方面必须提取新数据知识,另一方面又不能让新知识输入造成对原有知识的冲击,而如果使用直接训练数据的方法极其困难,这个时候采用增量学习仅需要学习新的数据,如果直接训练就得每次训练新加入的数据,这种方法在如今流数据大数据的时代明显代价极高,而采用增量学习只需要每次训练新数据的模型即可,这也是为什么采用增量学习作为解决概念漂移问题的一种手段。

二、增量学习论述

增量学习主张解决稳定性-可塑性难题,也就是在资源有限条件下寻找效用最大的平衡点。稳定性在于防止新知识输入对已有知识的显著干扰;可塑性在于从新数据中整合新知识和提炼已有知识

三、集成学习论述

集成学习主要解决两大问题:**第一是如何获取个体学习器;第二是如何将个体学习器进行策略结合组成强学习器。**针对第一个问题:个体学习器应该好而不同。据此现在的集成学习个体学习器生成分为Boosting代表的学习器之间有强依赖关系;Bagging代表的学习器之间不存在强依赖关系

三、如何解决时序概念漂移问题

1.采用增量学习框架解决稳定性-可塑性问题
可以采用增量学习框架,保留历史数据和最近数据信息
但是单分类器的增量学习模型不稳定,容易受到噪声影响,且随学习次数增加容易过拟合,因此多分类器的增量学习就更适应于解决问题;
批量学习与增量学习的区别,时序数据跨时间段差距大,实时动态连续,批量数据会抛弃原来的历史数据训练新的模型,浪费数据,而增量学习只需要对新数据进行训练微调即可;
集成增量学习是使用多个模型对训练数据进行学习,对于子模型还可以采取异构或者同构的结构。集成增量学习就是将新产生数据训练基分类器加入集成模型进行更新,更新也可以分为(是否固定基分类器数量);基于多数遗忘策略增量学习是在增量学习基础上的优化,其优化步骤在于选取两个连续时间序列数据块组成数据集(正常是一个时间序列块),剔除上个模型训练集里面首个数据块所有正常样本,将训练集剩余部分与下一个相邻数据块组成新的训练集,如此重复,也就是不停的在后续时间序列数据块中增添前者异常样本,然后再将所有子模型按照Bagging并行训练组合模型——优化点在于1.解决集成模型规模较大,仅学习异常样本的历史信息;2.原来的模型可能对现在数据预测效果不显著,但Superlearner可以解决权重系数问题
为什么采用增量学习解决概念漂移问题?首先概念漂移是目标变量随时间变化发生改变的现象,产生稳定性-可塑性危机,就是一方面必须提取新数据知识,另一方面又不能让新知识输入造成对原有知识的冲击,而如果使用直接训练数据的方法极其困难,这个时候采用增量学习仅需要学习新的数据,如果直接训练就得每次训练新加入的数据,这种方法在如今流数据大数据的时代明显代价极高,而采用增量学习只需要每次训练新数据的模型即可。增量学习适应于概念漂移的最重要在于——增量学习平衡新知识和旧知识关系,并且无须每次都推倒重来,直接学习新知识。
2.如何解决集成模型的问题
模型融合的均值法、排序法、模型结果输出再训练都没有解决子模型合理权重赋予的问题,而Superlearner在常见集成模型的基础上又进行优化提升:
(1)全数据集训练每一个基学习器
(2)按照V折交叉验证方法,第V份为验证集,其他为训练集(3)根据划分的训练集训练每一个学习器,并得到预测值(4)将每一个模型在验证集第V份上的预测值构建n×k矩阵(5)通过权重向量,对组合模型进行求解最小化交叉验证后风险确定权重向量
(6)将求解出的权重向量带入组合模型,生成新的各个子模型对应的系数
集成模型的关键在于自动化求解确定每个子模型的权重系数,权重系数的确定有排序、平均等,单都不是很高效,而Superlearner直接将各个模型组合起来,求解矩阵最小化交叉验证后风险来确定这个权重系数,再来生成输出模型权重系数
那这个Superlearner模型的优势在于什么呢?
(1).简单易行的模型融合方法,可以尝试大量模型进行融合
(2).通过最小化交叉验证后风险方法进行模型融合,避免过拟合
(3)得到的混合模型泛化能力较高,模型鲁棒性强
(4)原有的增量集成模型都是同构分类器进行加权投票,而Superlearner是对权重系数进行训练的一种模型融合法方法,是对于子模型权重分配的一种创新,而将模型输出作为另一个模型输入的做法极容易过拟合,而Superlearner算法是一种通过最小化交叉验证后风险的方法寻求最优模型融合的算法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值