监督学习(Supervised Learning)
监督学习:训练数据包含正确的结果。
其中典型的监督学习算法有朴素贝叶斯、决策树、支持向量机、逻辑回归、线性回归、k近邻等,常见的8种监督学习算法的特点如表1所示
算法名称 | 类型 | 特点 | 应用 |
---|---|---|---|
朴素贝叶斯 | 分类 | 通过一个给定的元组属于一个特定的概率来进行分类 | 文本分类、垃圾邮件分类、信用评估 |
决策树 | 分类 | 通过训练数据构建决策树,对未知数据进行分类 | 科学决策、风险评估、金融分析 |
支持向量机 | 分类 | 通过最大化分类边界点与分类平面的距离来实现分类 | 模式识别、文本分类 |
逻辑回归 | 分类 | 处理因变量为分类变量的回归问题,常见的有二分类或项分布问题,也有多分类问题 | 数据挖掘、疾病自动诊断、经济预测 |
线性回归 | 回归 | 通过一个超平面拟合数据集 | 流行病研究、金融分析、股市预测 |
k近邻 | 分类+回归 | 根据距离相近的邻居类别来判定自己所属类别 | 图像分类、模式识别 |
AdaBoost | 分类+回归 | 通过将一系列弱学习器组合起来,集成弱学习器的学习能力,得到一个强学习器 | 人脸检测、森林火灾预测 |
神经网络 | 分类+回归 | 通过对人脑神经元网络进行抽象,建立模型,按照不同的连接方式组成不同的网络 | 模式识别、语音识别、文本分类 |
无监督学习(Unsupervised Learning)
无监督学习:训练数据不包含正确的数据
非监督学习算法主要用于识别无标签数据的结构,常见算法如表2所示。
算法名称 | 类型 | 特点 | 应用 |
---|---|---|---|
K-means | 基于划分方法的聚类 | 将数据分为K组,随机选取K个对象作为初始的聚类中心,计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心 | 客户分析与分类、图形分割 |
Birch | 基于层次的聚类 | 通过扫描数据库,建立一个聚类特征树,对聚类特征树的叶节点进行聚类 | 图片检索、网页聚类 |
Dbscan | 基于密度的聚类 | 将密度大的区域划分为族,在具有噪声的空间数据库中发现任意形状的簇,并将簇定义为密度相连的点的最大集合 | 社交网络聚类、电商用户聚类 |
Sting | 基于网格的聚类 | 将空间区域划分为矩形单元,对于不同级别的分辨率,存在多个矩形单元,高层单元被划分为多个低层单元,计算和存储每个网格单元属性的统计信息 | 语音识别、字符识别 |
主成分分析(PCA) | 线性降维 | 通过正交变换将一组可能存在相关性的变量数据转换为组线性不相关的变量,转换后的变量被称为主成分 | 数据挖掘、图像处理 |
线性判别分析(LDA) | 线性降维 | 将高维空间中的数据投影到低维空间中,投影后各个类别的类内方差小,而类间均值差别大 | 人脸识别、舰艇识别 |
局部线性嵌入(LLE) | 非线性降维 | 在保持原始数据性质不变的情况下,将高维空间的信号映射到低维空间,从而进行特征值的二次提取 | 图像识别、高维数据可视化 |
拉普拉斯映射(LE) | 非线性降维 | 从局部近似的角度构建数据之间的关系,对要降维的数据构建图,图中的每个节点和距离它最近的K个节点建立边关系 | 故障检测 |
半监督学习(Semi-supervised Learning)
半监督学习(混合学习):训练数据包含少量正确的数据(标签样本)
强化学习(Reinforcement Learning)
强化学习:对每次的学习结果进行奖惩或评分反馈。实现优化。比如阿尔法狗