概述:
模式识别是通过使用计算机算法自动发现数据中的规律性,并利用这些规律采取行动。
机器学习是研究通过经验自动改进的计算机算法,它被视为人工智能的一部分。机器学习算法基于样本数据建立一个模型,成为“训练数据”,进行预测或决策。
进行机器学习,先要有数据,从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中。若预测的是离散值,此类学习任务称为“分类”;若预测的是连续值,此类学习任务称为“回归”。对于仅涉及两个类别的“二分类”任务,一般称其中一个类为“正类”,另一个类为“反类”;当涉及多个类别时,则称为“多分类”任务。
基本分类
学习任务大致可分为:“监督学习”(分类和回归)、“无监督学习”(聚类),也包括强化学习、半监督学习、主动学习等。
监督学习指的是从标注数据中学习预测模型的机器学习问题,分为学习和预测两个过程。
无监督学习指的是从无标注数据中学习预测模型的机器学习问题。
强化学习指的是智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。
半监督学习指的是利用标注数据和未标注数据学习预测模型的机器学习问题。
主动学习是指的是机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
统计学习三要素:模型、准则(策略)、优化(算法)
以监督学习为例:
模型:假设空间用表示。
①假设空间可以定义为决策函数的集合:(X和Y是定义在输入空间和输出空间上的变量)
参数空间:
②假设空间也可以定义为条件概率的集合:(X和Y是定义在输入空间和输出空间上的变量)
参数空间:
策略:损失函数度量模型一次预测的好坏,而风险函数度量平均意义下模型预测的好坏。
①0-1损失函数:
②平方损失函数:
③绝对损失函数:
④对数损失函数:
损失函数的期望:
给定一个训练数据集:,
则经验风险为:
算法:梯度下降法、凸优化方法、解析解法、矩阵分解等
经验误差与过拟合
若m个样本中有a个样本分类错误,则有错误率为 ,精度为 ,实际预测输出与样本的真实输出之间的差异称为“误差”。
过拟合指学习能力过于强大,特性太多;欠拟合指学习能力低下。
二分类评价指标
混淆矩阵(二分类是通过阈值来划分正、负类的,通常将关注的类作为正类,其他类作为负类)
TP:true positive,将正类预测为正类
FN:false negative,将正类预测为负类
FP:false positive,将负类预测为正类
TN:true negative,将负类预测为负类
精确率:
召回率:
精确度:
F1值:
ROC与AUC
ROC本质上就是在设定某一阈值后,计算出该阈值对应的TPR&FPR,便可以绘制出ROC上对应的一个点。当设定若干个阈值之后,便可以连成ROC曲线。
AUC即ROC曲线下的面积,计算方式即为ROC Curve的微积分值。
ROC曲线的纵轴:真正例率:
ROC曲线的横轴:假正例率 :