A、监督学习和非监督学习的区别
是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没有标签则为无监督学习。
(监督学习:通过已有的训练亚那根本(即已知数据以及其对应的输出)去训练得到一个最优的模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,也就具有了对未知数据进行分类的能力。——回归和分类。最简单也是最普遍的一类机器学习算法就是分类。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。)
(非监督学习:在事先没有任何训练样本,就需要直接对数据进行建模。——聚类)
(半监督学习(semi-supervised learning):训练数据的一部分是有标签的,另一部分没有标签,而没有标签的数量常常极大于有标签数据数量。半监督学习的基本规律是:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。)
B、监督学习的分类
回归算法和分类算法的区别:在回归问题中,我们会预测一个连续值。也就是说我们试图将输入变量和输出用一个连续函数对应起来;而在分类问题中,我们会预测一个离散值,我们试图将输入变量与离散的类别对应起来。(也就是说:连续变量预测是回归,离散变量预测是分类)
C、监督学习常见算法
1、K-近邻算法(k-Nearest Neighbors,KNN)
2、决策树(Decision Trees)
3、朴素贝叶斯(Naive Bayesian)
4、逻辑回归(Logistic Regression)
参考资料: