统计学习分类
基本分类
监督学习
监督学习是指从标注数据中学习预测模型的机器学习问题
-
回归问题
输入与输出均为连续变量的问题称为回归问题
-
分类问题
输出变量为有限个离散变量的预测问题称为分类问题
-
标注问题
输入向量与输出向量均为变量序列的预测问题称为标注问题
无监督学习
无监督学习的本质是学习数据中的统计规律或潜在结构,也可以用于对未来数据的分析
强化学习
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题
半监督学习
半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题
主动学习
主动学习是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
主动学习的目标是找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
按模型分类
概率模型&非概率模型
-
概率模型
概率模型取条件概率分布形式P(y|x),是生成模型。概率模型一定可以表示为联合概率分布的形式
-
非概率模型
非概率模型取函数形式y=f(x),为判别式模型,对于非概率模型不一定存在联合概率分布
线性模型&非线性模型
-
线性模型
如果y=f(x)是线性函数,则称模型为线性模型。
感知机、线性支持向量机、k近邻、k均值、潜在语义分析 -
非线性模型
核函数支持向量机、adaboost、神经网络
参数化模型&非参数化模型
-
参数化模型
参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画。比如:感知机、朴素贝叶斯、逻辑斯蒂回归、k均值、高斯混合模型
-
非参数化模型
非参数化模型假设模型的参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。比如:决策树、支持向量机、adaboost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配。
按算法分类
在线学习
在线学习是指每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。
在线学习可以是监督学习,也可以是无监督学习,强化学习本身就拥有在线学习的特点。
批量学习
批量学习一次接受所有数据,学习模型,之后进行预测。
按技巧分类
贝叶斯学习
贝叶斯学习的主要想法是,在概率模型的学习和推理,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率。
使用模型的先验分布是贝叶斯学习的特点
核方法
核方法是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和非监督学习。