集成学习:通过构建并结合多个学习器来完成学习任务,也被称为多分类器系统、基于委员会的学习等;集成学习的结果产生:少数服从多数;
个体学习:通常由一个现有的算法从训练数据产生,例如C4.5算法、BP随机森林算法网络算法等;
boosting :将弱分类器提升为强学习器的算法,工作机制:先从初始训练集训练出一个基学习器,在根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的T值,对这T个值进行加权结合
Bagging:并行式集成学习,给定包含m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始数据集,经过m次随机采样操作,得到每个样本的采样集。 采样出T个含m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将基学习器进行结合
结合策略(平均法,投票法,学习法):对数值型输出,结合策略使用平均法,分为简单平均法和加权平均法;一般在个体学习器性能相差较大时使用加权平均法,而在个体学习器性能相近时使用简单平均法; 投票法:适用于分类任务,分为绝对多数投票法,相对多数投票法和加权投票法 学习法:通过另一个学习器来进行结合;先从初始训练集中训练出初级学习器,然后生成一个新数据集用于训练次级学习器;在新数据集中,初级学习器的输出被当做样例输入特征,
随机