无监督学习和监督学习
1 . 无监督学习(Unsupervised learning)
训练样本的标记信息是未知的,目标是为了揭露训练样本的内在属性,结构和信息,为进一步的数据挖掘提供基础。
- 聚类(clustering)
- 降维(dimensionality reduction)
- 异常检测(outlier detection)
- 推荐系统(recommendation system)
###1.1 聚类
聚类通常是指,对于未标记训练样本,根据样本的内在相似性,将样本划分为若干个不相交子集的学习算法。
聚类涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性或特征,而不同组中的数据点应该具有高度不同的属性或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。
包含算法如下:
- K-MEANS聚类算法
- 均值偏移聚类算法(Mean shift)
- DBSCAN聚类算法(Density-Based Spatial Clustering of Applications with Noise)
- 高斯混合模型(GMM)的期望最大化(EM)聚类
- 层次聚类算法
2 . 监督学习(supervised learning)
训练样本带有信息标记,利用已有的训练样本信息学习数据的规律预测未知的新样本标签
- 回归分析(regression)
- 分类(classification)
2.1 分类
预测的结果是离散的,例如预测明天天气-阴,晴,雨。分类是监督学习任务(带label标签)
分类问题是用于将事物打上一个标签,通常结果为离散值。
例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。
2.2 回归
预测的结果是连续的,例如预测明天的温度,23,24,25度。回归是监督学习任务(带label标签)
回归问题通常是用来预测一个值
如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。回归是对真实值的一种逼近预测。