数据集的分类:
学习方式:监督学习、无监督学习、半监督学习
监督学习
监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。
监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息,对于神经网络,分类系统利用信息判断网络的错误,然后不断调整网络参数。对于决策树,分类系统用它来判断哪些属性提供了最多的信息。
常见的有监督学习算法:回归分析和统计分类。最典型的算法是KNN和SVM。
这里顺便区别一下什么是回归问题,什么事分类问题:
回归问题和分类问题都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。
分类问题:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1),是一种定性输出,也叫离散变量预测;
回归问题:给定一个新的模式,根据训练集推断它所对应的输出值(实数)是多少,是一种定量输出,也叫连续变量预测。
举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。
无监督学习(unsupervised learning)
进行无监督学习时,输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。有监督学习和无监督学习的最大区别在于数据是否有标签 。
无监督学习最常应用的场景是聚类(clustering)和降维(DimensionReduction)
聚类(clustering):就是根据数据的“相似性”将数据分为多类的过程。评估两个不同样本之间的“相似性” ,通常使用的方法就是计算两个样本之间的“距离”。