机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。
一个更精确的定义:如果计算机程序对于任务 T 的性能度量 P 通过经验 E 得到了提高,则认为此程序对经验 E 进行了学习。
为了便于理解,这里我整理了常见机器学习算法的通俗解释。
机器学习算法分类
机器学习可以分成监督学习与无监督学习:监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。监督学习和非监督学习的差别就是训练集目标是否人标注。
监督学习
-
线性回归
-
逻辑回归
-
朴素贝叶斯
-
决策树
上面的随机森林和GBDT其实是用了集成学习,通过构建并结合多个机器学习器来完成学习任务。集成学习原理可以见:集成学习原理小结
无监督学习
无监督学习的简要介绍:什么是无监督学习?
常见的无监督学习算法有聚类:
然后还有一个非常经典的无监督降维算法——主成分分析法:
机器学习评价指标
评价指标是机器学习任务中非常重要的一环。不同的机器学习任务有着不同的评价指标,同时同一种机器学习任务也有着不同的评价指标,每个指标的着重点不一样。
详细见:机器学习评价指标