回归分析
回归是这样一种建模方式,它先确定一个衡量模型预测误差的量,然后通过这个量来反复优化变量之间的关系。回归方法是统计学的主要应用,被归为统计机器学习。这有些让人迷惑,因为我们可以用回归来指代一类问题和一类算法。实际上,回归是一个过程。以下是一些例子:
· 普通最小二乘法
· 逻辑回归
· 逐步回归
· 多元自适应样条回归(MARS)
· 局部多项式回归拟合(LOESS)
基于实例的学习模型对决策问题进行建模,这些决策基于训练数据中被认为重要的或者模型所必需的实例。 这类方法通常会建立一个范例数据库,然后根据某个相似性衡量标准来把新数据和数据库进行比较,从而找到最匹配的项,最后作出预测。因此,基于实例的方法还被叫做“赢者通吃”方法和基于记忆的学习。这种方法的重点在于已有实例的表示以及实例间相似性的衡量标准。
· K最近邻算法(kNN)
· 学习矢量量化(LVQ)
· 自组织映射(SOM)
正则化方法
这是对另一种方法(通常是回归分析方法)的扩展,它惩罚复杂度高的模型,倾向推广性好的更加简单的模型。我在这里列下了一些正则化的方法,因为他们流行、强大,而且通常只是对其他方法简单的改进。
· 岭回归(Ridge)
· 套索算法(LASSO)
· 弹性网络
决策树学习
决策树方法对决策过程进行建模,决策是基于数据中属性的实际数值。决策在树形结构上分叉直到对特定的某个记录能做出预测。在分类或者回归的问题中我们用数据来训练决策树。
· 分类与回归树算法(CART)
· 迭代二叉树3代(ID3)
· C4.5算法
· 卡方自动互动检视(CHAID)
· 单层决策树
· 随机森林
· 多元自适应样条回归(MARS)
· 梯度推进机(GBM)
贝叶斯算法
贝叶斯方法是那些明确地在分类和回归问题中应用贝叶斯定理的算法。
· 朴素贝叶斯算法
· AODE算法
· 贝叶斯信度网络(BBN)
核函数方法
核函数方法中最为出名的是流行的支持向量机算法,它其实是一系列方法。核函数方法关心的是如何把输入数据映射到一个高维度的矢量空间,在这个空间中,某些分类或者回归问题可以较容易地解决。
· 支持向量机(SVM)
· 径向基函数(RBF)
· 线性判别分析(LDA)
聚类方法
就像回归一样,聚类既表示一类问题,也表示一类方法。聚类方法一般按照建模方式来划分:基于质心的或者层级结构的。所有的方法都是利用数据的内在结构来尽量地把数据归入具有最大共性的一类里。
· K均值法
· 最大期望算法(EM)
关联规则学习
关联规则学习是提取规则的一类算法,这些规则能最好地解释观测到的数据中的变量之间的关系。这些规则能在大型多维数据集中发现重要且在商业上有用的关联,然后进一步被利用。
· Apriori算法
· Eclat算法
人工神经网络
人工神经网络是受启发于生物神经网络的结构和/或功能的算法。它们是一类常用在回归和分类问题中的模式匹配方法,但其实这个庞大的子类包含了上百种算法和算法的变形,可以解决各种类型的问题。一些经典流行的方法包括(我已经把深度学习从这个类中分出来了):
· 感知器
· 反向传播算法
· Hopfield神经网络
· 自适应映射(SOM)
· 学习矢量量化(LVQ)
深度学习
深度学习方法是利用便宜冗余的计算资源对人工神经网络的现代改进版。这类方法试图建立大得多也复杂得多的神经网络,就如前面说到的,许多方法都是基于大数据集中非常有限的标记数据来解决半监督学习问题。
· 受限玻尔兹曼机(RBM)
· 深度信念网(DBN)
· 卷积神经网络
· 层叠自动编码器(SAE)
降维方法
如同聚类方法,降维方法试图利用数据中的内在结构来总结或描述数据,所不同的是它以无监督的方式利用更少的信息。这对于可视化高维数据或者为之后的监督学习简化数据都有帮助。
· 主成分分析(PCA)
· 偏最小二乘法回归(PLS)
· 萨蒙映射
· 多维尺度分析(MDS)
· 投影寻踪
集成方法
集成方法由多个较弱模型组合而成,这些子模型独立训练,它们的预测结果以某种方式整合起来得出总的预测。很多努力都集中在选择什么类型的学习模型作为子模型,以及用什么方式整合它们的结果。这是一类非常强大的技术,因此也很流行。
· 推进技术(Boosting)
· 自展集成(Bagging)
· 适应性推进(AdaBoost)
· 层叠泛化策略(Blending)
· 梯度推进机(GBM)
· 随机森林