名称 | 流派 | 人物 | 文献 | 原理 | 优点 | 缺点 | 应用案例 | 数通启发 |
逻辑回归 | 统计 | David Cox | “The regression analysis of binary sequences (with discussion)” | 对于二分类,将样本为正例概率和反例概率比率对数使用线性拟合 | 不但给出分类,同时给出了属于各类的概率,数学性质好,求解简单,容易解释 | 容易欠拟合,对模型中自变量多重共线性较为敏感,预测结果呈“S”型 | 分类 | 个人信用分级 各种分类 |
LDA | 统计 | Fisher | “The use of multiple measurements in taxonomic problem” | 将不同类映射到一条直线上,是的同类距离尽量近,不同类尽量远 | 算法简单,易于理解 | 对线性可分才有用,局限性大,受样本种类限制,投影空间的维数最多为样本数量N-1维 | 分类 | 男女分类各种分类 |
决策树 | 符号 | Quinlan,J.R | “Induction of decision trees” | 根据信息增益大小,将样本属性分解成树状结构,并用于新样本分类 | 计算复杂度不高,易于理解和解释,对中间值的缺失不敏感,可以处理不相关特征数据 | 可能会产生过度匹配问题,信息增益的结果偏向于那些具有更多数值的特征 | 分类 | 信用评级各种分类 |
神经网络 | 联结 | Rumelhart | “Learning representations by backpropagating errors” | 模拟生物神经系统设计神经元,将许多神经元按一定层次联结,神经元以其他神经元输出按一定权重作为输入,当超过一定阈值则兴奋,并向下层输出 | 很强的非线性拟合能力,具有很强的鲁棒性、记忆能力、非线性映射能力以及强大的自学习能力 | 可解释能力差,容易陷入局部最小 | 分类、回归 | 公司财务预警建模各种分类 |
支持向量机 | 统计 | Cortes、Vapnik | “Support vector networks” | 对于二类问题,直观上为寻找两类样本“正中间”的划分超平面,对于线性不可分的东西考虑使用核函数将问题映射到更高维舍得线性可分 | 鲁棒性好,有非线性能力,可以解决高维问题,能够避免局部最小 | 对缺失数据敏感,核函数选择无法解决 | 分类、回归 | 上证指数开盘指数预测 |
贝叶斯 | 统计 | Kononenko | “Semi-naïve Bayesian classifier” | 在所有相关概率都知道的情况下,基于概率和误判损失来选择最优的类别标记 | 算法简单、分类效率稳定,对缺憾数据不敏感 | 需要独立性假设,需要知道先验概率 | 分类、回归 | 文本分类 |
稀疏学习 | 统计 | Ma yi | “Face Recognition via Sparse Representation” | 将样本进行稀疏表示,分类是要使得测试样本与样本线性组合误差小,并且要求参与组合的样本尽量少 | 对于稀疏数据,学习任务降低,计算存储开销较少,可解释性增强 | 过度稀疏和过度非稀疏难以解决 | 分类 | 人脸识别 |
近邻法 | 类推 | Friedman | “Lazy decision trees” | 分类时,使用和待测样本“距离”近的部分样本的类别标记作为待测样本的类别。回归时,用原样本的数据结果加权平均作为待测样本输出 | 算法简单,可解释能力强 | 计算量大,空间开销大 | 分类、回归 | 手写体识别 |
规则学习 | 符号 |
|
|
|
|
|
|
|
强化学习 |
|
|
|
|
|
|
|
|
深度学习 | 联结 | Hinton、LeCun | “Gradient-based learning applied to document recognition” | 多层神经网络,每个连续的层使用前一层的输出作为输入,无监督的多层网络训练模型结构,称为“预训练”,再最后对整个模型进行“微调” | 功能强大,end2end不需要特征学习,可以实现全自动数据分析 | 计算量庞大,可解释能力差 | 分类、回归 | AlphaGo |
参数回归 | 统计 | Legendre | 《机器学习》清华大学出版社 周志华 | 根据数据的形式设计函数,再对函数中参数进行计算 | 计算简单,不过度依赖数据 | 对缺失值敏感,函数设置需要人为先设定,泛化能力弱 | 回归 | 市场价格预测 |
非参数回归 | 统计 | Nadaraya | 模式识别(第三版)清华版 张学工 | 使用核函数或者其他方法计算“距离”,根据距离给定不同权重,待测样本使用原样本中数据的加权组合 | 对大数据准确率高,回归形式自由,适应能力弱,对非线性效果好 | 计算量大,对小样本差 | 回归 | 市场价格预测 |
原型聚类 | 统计 | Jain | “Data clustering :50 years beyond K-means” | 对原型进行初始化,然后对原型进行迭代更新求解 | 简单,算法有可伸缩性 | 初始划分影响较大,算法开销很大 | 聚类 | 图像处理(暂无实际应用) |
密度聚类 | 统计 | Ester | “A density-based algorithm for discovering clusters in large spatial databases” | 从样本密度考察样本的可连接性,并基于连接样本不断扩展聚类簇 | 不需要事先知道要形成的簇类的数量,可以发现任意形状的簇类,能够识别出噪声点,中样本的顺序不敏感 | 不能很好反映高尺寸数据,不能很好反映数据集变化的密度,对于高维数据,点之间极为稀疏,密度就很难定义了 | 聚类 | 图像处理暂无实际应用 |
层次聚类 | 统计 | Kaufman | “Finding Groups in Data: An Introuction to Cluster Analysis” | 在不同层次上对数据进行划分,如距离层次,形成树形的聚类结构 | 距离和规则的相似度容易定义,限制少,不需要预先制定聚类数,可以发现类的层次关系,可以聚类成其它形状 | 计算复杂度太高,奇异值也能产生很大影响,算法很可能聚类成链状 | 聚类 | 图像处理暂无实际应用 |
SOM | 联结 | Kohonen | “Self-Organization and Associative Memory” | 建立神经网络,采用竞争学习(仅有获胜节点才能激活并有权调整权重),从而形成自组织网络 | 结构简单,容错性高,有特征映射能力,可视化能力,自稳定性 | 需要初始化,对新类别没有适应性,输入顺序会影响结果,参数敏感 | 聚类 | 柴油机故障诊断 |
半监督SVM | 统计 | Joachims | “Transductive inference for text classification using support vector machines” | 考虑未标记样本各种可能的类,然后在所有结果中,找所有上间隔最大化的划分超平面 | 考虑无标签对分类器的影响,算法高效 | 时间复杂度高,需要预先设置参数 | 分类(半监督) | 人脸识别(暂无实际应用) |
图半监督 | 统计 | Zhu,X | “Semi-supervised learning using Gaussian fields and harmonic functions” | 对未标记样本和样本相似性对未标记进行预测 | 可解释能力强,算法性质简单明了 | 空间复杂度高,对新样本需重新学习 | 分类(半监督) | 人脸识别(暂无实际应用) |
Apriori |
| Rakesh Agrawal | 《Fast algorithms for mining association rules in large databases》 | 利用Apriori原理迭代去除不符合最小支持度的项集 | 量化表示关系,并计算量大量减少 | 迭代过程需对全部记录扫描,没有排除不该参与组合的元素 | 规则学习 | 购物篮算法 |
其他:样本选择:留出法、交叉法、自助法
多分类推广:ECOC、ORV
决策树:剪枝处理、缺失值处理
神经网络:BP、局部最小处理
SVM:软间隔处理
贝叶斯:最大似然方法、EM算法
集成学习:Boosting、随机森林、结合策略
降维:低维嵌入、PCA、核化线性降维、流形学习、度量学习
特征选择:子集搜索、过滤式、包裹式、嵌入式、压缩感知
半监督:生成式、FCM
概率图模型
计算学习