机器学习入门:理论➕实战—第一章 机器学习基础知识

一、机器学习基础知识

1机器学习概率

1.1 什么是机器学习

人工智能是研究、开发用于模拟、延伸和扩展人的只能的理论、方法、技术及应用系统的一门新的技术科学。它是一个笼统而宽泛的概念,人工智能的最终目标是使得计算机能够模拟人的思维方式和行为。

机器学习是人工智能的子集,是实现人工智能的一种途径,但不是唯一的途径。它是一门专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科

深度学习是机器学习的子集,灵感来自人脑,由人工神经网络(ANN)组成,它模仿人脑中存在的相似结构。在深度学习中,学习是通过相互关联的神经元的一个深层的、多层的网络来进行的。深度一次通常指的是神经网络中隐藏层的数量。

1.2 机器学习三要素

机器学习三要素包括数据、模型、算法。

1. 数据:

数据驱动:数据驱动指的是我们基于客观的量化数据,通过主动数据的采集分析以支持决策。与之对应的是经验驱动,比如我们常说的{拍脑袋}。

2. 模型&算法

模型:在AI数据驱动的范畴内,模型指的是基于数据X做决策Y的假设函数,可以有

不同的模型,计算型和规则型等。

算法:指学习模型的具体计算方法。统计学习基于数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化模型。

1.3 机器学习核心技术

    类:应用已分类数据进行模型训练,根据模型对新样本进行精确分类和预测;

聚    类:从海量数据中识别数据的相似性与差异性,并根据最大共同点聚合为多个类别;

异常检测:对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点;

    归:根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本

的输出值。

1.4 机器学习基本流程

机器学习工作流(WorkFlow)包含数据预处理(Processing)、模型学习(Learning)、模型评估(Evaluation)、新样本预测(Prediction)几个步骤。

  1. 数据预处理:输入(未处理的数据 + 标签)→处理过程(特征处理+幅度缩放、特征选择、维度约减、采样)→输出(测试集 + 训练集)。
  2. 模型学习:模型选择、交叉验证、结果评估、超参选择。
  3. 模型评估:了解模型对于数据集测试的得分。
  4. 新样本预测:预测测试集。

2. 机器学习基本名词

监督学习(Supervised Learning):训练集有标记信息,学习方式有分类和回归。
无监督学习(Unsupervised Learning):训练集没有标记信息,学习方式有聚类和降维。
强化学习(Reinforcement Learning):有延迟和稀疏的反馈标签的学习方式。
示例/样本:上面一条数据集中的一条数据。
属性/特征:「色泽」「根蒂」等。
属性空间/样本空间/输入空间X:由全部属性张成的空间。
特征向量:空间中每个点对应的一个坐标向量。
标记:关于示例结果的信息,如((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜),其中「好瓜」称为标记。
分类:若要预测的是离散值,如「好瓜」,「坏瓜」,此类学习任务称为分类。
假设:学得模型对应了关于数据的某种潜在规律。
真相:潜在规律自身。
学习过程:是为了找出或逼近真相。
泛化能力:学得模型适用于新样本的能力。一般来说,训练样本越大,越有可能通过学习来获得具有强泛化能力的模型。

3 机器学习算法分类

3.1 机器学习算法依托的问题场景

机器学习算法从数据中主动分析获得规律,并利用规律对位置数据进行预测。这里借用两个图:

3.2 分类问题

二分类问题:表示分类任务中由两个类别,新的样本属于哪种分类的样本类;

多类分类:表示分类任务中有多类别;

多标签分类:给每个样本一系列的目标标签。

4机器学习模型评估与选择

4.1性能度量指标

性能度量是衡量模型泛化能力的数值评价标准,反映了当前问题(任务需求)。使用不同的性能度量可能会导致不同的评判结果。​​​​​​​

4.1.1 回归问题

回归问题常用的性能度量指标有:

平均绝对误差(Mean Absolute Error,MAE),又叫平均绝对离差,是所有标签值与回归模型预测值的偏差的绝对值的平均。

平均绝对百分误差(Mean Absolute Percentage Error,MAPE)是对MAE的一种改进,考虑了绝对误差相对真实值的比例。

均方误差(Mean Square Error,MSE)相对于平均绝对误差而言,均方误差求的是所有标签值与回归模型预测值的偏差的平方的平均。

均方根误差(Root-Mean-Square Error,RMSE),也称标准误差,是在均方误差的基础上进行开方运算。RMSE会被用来衡量观测值同真值之间的偏差。

R平方,决定系数,反映因变量的全部变异能通过目前的回归模型被模型中的自变量解释的比例。比例越接近于1,表示当前的回归模型对数据的解释越好,越能精确描述数据的真实分布。

4.1.2 分类问题

分类问题常用的性能度量指标包括:

错误率:分类错误的样本数占样本总数的比例。

精确率:分类正确的样本数占样本总数的比例。

查准率(也称准确率),即在检索后返回的结果中,真正正确的个数占你认为是正确的结果的比例。

查全率(也称召回率),即在检索结果中真正正确的个数,占整个数据集(检索到的和未检索到的)中真正正确个数的比例。

F1是一个综合考虑查准率与查全率的度量,其基于查准率与查全率的调和平均定义:即:F1度量的一般形式-Fβ,能让我们表达出对查准率、查全率的不同偏好。

ROC曲线(Receiver Operating Characteristic Curve)全称是「受试者工作特性曲线」。综合考虑了概率预测排序的质量,体现了学习器在不同任务下的「期望泛化性能」的好坏。ROC曲线的纵轴是「真正例率」(TPR),横轴是「假正例率」(FPR)。​​​​​​​

4.2 评估方法

常见的评估方法:留出法(Hold-out)、交叉验证法( Cross Validation)、自助法(Bootstrap)。

留出法(Hold-out):机器学习中最常见的评估方法之一,它会从训练数据中保留出验证样本集,这部分数据不用于训练,而用于模型评估。

交叉验证法( Cross Validation):k 折交叉验证对 k 个不同分组训练的结果进行平均来减少方差,因此模型的性能对数据的划分就不那么敏感,对数据的使用也会更充分,模型评估结果更加稳定。

自助法(Bootstrap):一种用小样本估计总体值的一种非参数方法,在进化和生态学研究中应用十分广泛。Bootstrap通过有放回抽样生成大量的伪样本,通过对伪样本进行计算,获得统计量的分布,从而估计数据的整体分布。

4.3 模型调优与选择准则

我们希望找到对当前问题表达能力好,且模型复杂度较低的模型:

  1. 表达力好的模型,可以较好地对训练数据中的规律和模式进行学习;
  2. 复杂度低的模型,方差较小,不容易过拟合,有较好的泛化表达。

4.4 如何选择最优的模型

4.4.1 验证集评估选择
  1. 切分数据对训练集和验证集;
  2. 对于准备好的候选超参数,在训练集上进行模型,在验证集上评估。
4.4.2 网格搜索/随机搜索交叉验证
  1. 通过网格搜索/随机搜索产出候选的超参数组
  2. 对参数组的每一组超参数,使用交叉验证评估效果
  3. 选出效果最好的超参数
4.4.3 贝叶斯优化
  1. 基于贝叶斯优化的超参数调优。

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值