Python机器学习(原书第3版)- 第1章赋予计算机从数据中学习的能力

Python机器学习(原书第3版)

1.赋予计算机从数据中学习的能力

1.1 三种不同类型的机器学习

1.1.1 监督学习
  • 特点:有标签的数据、直接反馈、预测结果/未来
  • 目标:从有标签的训练数据中学习模型,以便对未知或未来的数据做出预测。
  • 流程:先为机器学习算法提供打过标签的训练数据以拟合预测模型,然后用该模型对未打过标签的新数据进行预测。
1.1.1.1 用于预测类标签的分类

    分类是监督学习的一个分支,其目的是根据过去的观测结果来预测新样本的分类标签。这些分类标签是离散无序值。常见的分类类标签集是二元的,非正即负,数据集为二维的。但经过监督学习算法学习所获得的预测模型可以将训练数据集中出现过的任何维度的类标签分配给尚未打标签的新样本,这也就会出现多类分类任务,其典型示例就是手写数字识别。
#####1.1.1.2 用于预测类标签的分类
    对连续结果的预测,也称为回归分析。回归分析包括一些预测(解释)变量和一个连续的响应变量(结果),试图逊郡变脸之间的关系,从而能够让我们预测结果。在机器学习中,将预测变量称为“特征”,响应变量被称为“目标变量”。

1.1.2 无监督学习
  • 特点:无标签/目标、无反馈、寻找数据中隐藏的结构
    用无监督学习技术,可以在没有已知结果变量或奖励函数的指导下,探索数据结构来提取有意义的信息。
1.1.2.1 用聚类寻找子群

    聚类是探索性的数据分析技术,可以在事先不了解成员关系的情况下,将信息分成有意义的子群(集群)。 在为分析过程中出现的每个集群定义一组对象,集群的成员之间具有一定程度的相似性,但与其他集群中的对象差异性较大,因此聚类有时也被称为无监督学习。聚类是一种构造信息和从数据中推导出有意义关系的有用技术。

1.1.2.2 通过降维压缩数据

    我们经常要面对高维数据,高维数据的每个观察通常都伴随着大量的测量数据,这对有限的存储空间和机器学习算法的计算性能提出了挑战。无监督降维是特征预处理中一种常用的数据去噪方法,不仅可以降低某些算法对预测性能是的要求,而且可以在保留大部分相关信息的同时将数据压缩到较小维数的子空间上

1.1.3 强化学习
  • 特点:决策过程、奖励机制、学习一系列的行动
  • 目标:开发一个系统(智能体),通过与环境的交互来提高其性能。
  • 常见示例:国际象棋。智能体根据棋盘的状态或环境来决定一系列行动。奖励定义为比赛的输和赢。
  • 强化学习的反馈并非标定过的正确标签或数值,而是奖励函数对行动度量的结果。智能体可以与环境交互完成强化学习,并通过探索性的试错或深思熟虑的规划来最大化这种奖励。

1.2 机器学习的术语

  • 训练样本:表中的行,代表数据集的观察、记录、个体或者样本(在多数情况下样本指训练样本集)
  • 训练:模型拟合,对参数型模型而言,类似参数估计
  • 特征(x):指数据表或矩阵的列。与预测因子、变量、输入、属性或协变量同义。
  • 目标(y):与结果、输出、响应变量、因变量、分类标签和真值同义
  • 损失函数:经常与代价函数同义,有时也被称为误差函数。损失是指对单个数据点进行测量的损失,而代价是对真个数据集进行测量(平均或者求和)的损失。

1.3 构建机器学习系统的路线图

1.3.1 预处理——整理数据

    为了获得模型的最佳性能,许多机器学习算法要求所选特征的测量结果单位相同,通常通过把特征数据变换到[0,1]的取值范围,或者均值为0、方差为1的标准正态分布来实现。
    某些选定的特征相互之间可能高度相关,因此某种程度上会呈现出冗余的现象。在这种情况下,降维技术对于将特征压缩到低维子空间非常有价值。降低特征空间维数的好处在于减少存储空间,提高算法的运行速度。如果数据集的信噪比较低,那么降维也可以提高模型的预测性能。

信噪比(SNR):信号的方差与噪声的方差之比。
S N R = σ s i g n a l 2 σ n o i s e 2 SNR=\displaystyle\frac{\sigma^2_{signal}}{\sigma^2_{noise}} SNR=σnoise2σsignal2

1.3.2 训练和选择预测模型

    为比较不同的算法来方便训练和选择性能最好的模型,首先要确定度量性能的指标,通常使用分类准确率作为度量指标,其定义为正确分类的个体占所有个体的百分比。
    为确定是哪一个模型在最终测试数据集和真实数据上表现得更好,我们采用不同的交叉验证技术,将数据进一步拆分为训练数据集和验证数据集,以评估模型的泛化性能。

1.3.3 评估模型并对未曾谋面的数据进行预测

    在训练数据集上拟合并选择模型之后,我们可以用测试数据集来评估它在从来没见过的新数据上的表现,以评估泛化误差。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值