白话机器学习算法 第一章 读书笔记

前言

数据科学的意义

  • 从大型数据集中发现隐藏的趋势
  • 充分利用发现的趋势做预测
  • 计算每种结果出现的概率
  • 快速获取准确结果

数据科学研究步骤

  1. 处理数据
  2. 选择算法
  3. 算法调优
  4. 创建模型 比较 确定

基础知识

准备数据

数据格式

数据类型

  • 二值变量:这是最简单的变量类型,它只有两种可能的值。在表1-1中,“是否买鱼”就是二值变量。
  • 分类变量:当某信息可以取Z两个以上的值时,便可以使用分类变量来表示它。在表1-1中,“顾客类别”就是分类变量。
  • 整型变量:这种变量用来描述可以使用整数表示的信息。在表1-1中,“水果购买量”就是整型变量,它表示每位顾客所购水果的数量。
  • 连续变量:这是最精细的变量,用来表示小数。在表1-1中,“支出”就是连续变量,它表示每位顾客花费的金额。

变量选择

原始数据集可能包含许多变量。往一个算法中放入过多变量,可能导致计算速度变慢,或者因干扰过多而产生错误的预测结果。因此,需要从众多变量中筛选出那些与研究目标密切相关的变量,这个过程就是变量选择。

一开始,可以通过简单的图来研究变量间的相关性。

特征工程

有时候,需要做一些处理才能获得最佳变量。

除了对单个变量进行重新编码之外,还可以合并多个变量,这个技巧叫作降维,第3章将进行讲解。降维可以提取最有用的信息,从而获得更精简的变量集,以供进一步分析。

缺失数据

  • 近似:如果缺失值所属的类型为二值变量或分类变量,那么可以使用该变量的众数(即出现次数最多的那个值)来替换它。

    若缺失值属于整型变量或连续变量,则可以使用中位数来替换它。

  • 计算:对于缺失值,还可以使用更高级的监督学习算法将它计算出来。虽然计算更耗时,但是所得到的数值更准确,这是因为算法基于类似交易来估算缺失值,这一点与近似方法(考虑每一笔交易)有所不同。

  • 移除:万不得已时,可以把包含缺失值的整行数据移除。但是,尽量不要这样做,因为这会减少分析时可用的数据量。而且,移除数据点可能会导致数据样本倾向或偏离特定的群体。

选择算法

无监督学习k均值聚类
主成分分析
关联规则
社会网络分析
监督学习回归分析
k最近邻
支持向量机
决策树
随机森林
神经网络
强化学习多臂老虎机

无监督学习

任务目标:指出数据中隐藏的模式。

找出那些商品是顾客经常搭配购买的/对顾客分类/…

监督学习

任务目标:使用数据中的模式做预测。

之所以称之为监督学习算法,是因为它们的预测都基于已有的模式。

“水果购买量” 属于整型数值/连续数值的预测过程 --> 解决回归问题

“是否会下雨” 属于二元值或分类值预测过程 --> 解决分类问题

在这里插入图片描述

强化学习

任务目标:使用数据中的模式做预测,并根据越来越多的反馈结果不断改进。

无监督学习模型和监督学习模型在部署之后便无法更改。不同于此,强化学习模型自身可以通过反馈结果不断改进。

假设要比较两个在线广告的效果。首先,让这两个广告的投放频率一样,然后确定每个广告的点击人数。接着,利用强化学习模型把点击人数作为衡量广告受欢迎程度的指标,并根据这个指标提高受欢迎广告的投放频率。通过这样的迭代过程,模型不断得到改进,最终会让广告投放取得更好的效果。

参数调优

在这里插入图片描述

a. 算法过度敏感,它把数据中的随机波动错误地当成持久模式

​ 这就是过拟合问题。

过拟合模型对当前数据有着很高的预测准确度,但是对未知数据的预测准确度较差,也就是说,过拟合模型的泛化能力不强。比如说过拟合模型在面对当前数据时表现良好,但是在面对新数据时可能表现得很糟糕。

c. 算法过于愚钝,忽略了数据中的基本模式,这就是欠拟合。

欠拟合模型很可能会忽视数据中的重要趋势,这会导致模型对当前数据和未知数据的预测准确度下降。

处理过拟合 --> 控制模型整体复杂度 --> 通过正则化引入惩罚参数

评价模型

三种常用的评价指标:预测准确率混淆矩阵和均方根误差

分类指标

关于预测准确率,最简单的定义就是正确的预测所占的比例。

混淆矩阵可以让我们进一步了解预测模型的优缺点。

回归指标

由于回归预测使用连续值,因此误差一般被量化成预测值和实际值之差,惩罚随误差大小而不同。均方根误差是一个常用的回归指标,尤其可用于避免较大的误差:因为每个误差都取了平方,所以大误差就被放大了。这使得均方根误差对异常值极其敏感,对这些值的惩罚力度也更大。

验证

指标并不能完整地体现模型的性能。验证是指评估模型对数据的预测准确度。

进行验证时,可以通过划分训练集和测试集的方式进行评估。

但如果原始数据集很小,划分集的方式无法保障准确度,可以使用交叉验证:使用同一个数据集进行训练和测试。

交叉验证最大限度地利用了可用的数据,它把数据集划分成若干组,用来对模型进行反复测试。

在这里插入图片描述

由于每次迭代用来做预测的数据各不相同,因此每次得到的预测结果都不同。综合考虑这些差异,就可以对模型的实际预测能力做出更为可靠的评估。

对所有评估结果取平均值,即为预测准确度的最终评估值。如果交叉验证结果表明模型的预测准确度较低,可以重新调整模型的参数或者重新处理数据。

次得到的预测结果都不同。综合考虑这些差异,就可以对模型的实际预测能力做出更为可靠的评估。

对所有评估结果取平均值,即为预测准确度的最终评估值。如果交叉验证结果表明模型的预测准确度较低,可以重新调整模型的参数或者重新处理数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 白话机器学习的数学pdf是一本以易懂的语言讲解机器学习中涉及的数学概念和算法的PDF教材。 在机器学习中,数学是一门非常重要的学科。它涵盖了许多基本的数学概念,如线性代数、微积分和概率论。这些数学概念在理解和应用各种机器学习算法时至关重要。 这本PDF教材以白话的方式解释了这些数学概念,使读者能够轻松理解和学习。它通过易懂的例子和图示来说明每个概念的含义和应用,帮助读者建立直观的认识。 PDF教材的内容包括线性代数的基本概念,如向量、矩阵和线性方程组,并解释了这些概念在机器学习中的应用,如特征向量和数据降维。 此外,PDF教材还讲解了微积分的概念和应用,如最优化问题和梯度下降算法。这些是机器学习中常用的算法,通过学习微积分,读者可以深入理解这些算法的原理和实现方式。 概率论也是机器学习中不可或缺的一部分,PDF教材简明扼要地介绍了概率的基本概念和常见的概率分布。它还解释了贝叶斯推断和朴素贝叶斯分类器在机器学习中的应用。 总的来说,这本白话机器学习的数学pdf以简单易懂的方式解释了机器学习中数学的基本概念和算法。它适合初学者学习和入门,也可以作为复习和回顾的参考资料。 ### 回答2: 白话机器学习的数学PDF是一本以简明易懂的语言阐述机器学习中涉及的数学原理和概念的电子书。它旨在帮助读者更好地理解机器学习算法背后的数学基础,为他们提供一个轻松的学习资源。 这本书首先介绍了机器学习的基本概念和应用领域,然后逐步深入到数学原理。它包括了涵盖机器学习所需的一系列数学概念,如线性代数、概率论、统计学和优化理论。 在书中,数学原理的阐述遵循了白话风格,尽可能用通俗的语言解释复杂的数学概念。它避免使用过多的数学符号和公式,而是通过图表和实际案例来讲解,以增加读者的理解和兴趣。 除了数学原理的介绍,这本PDF还提供了一些机器学习算法的实际应用示例和编程实践。这有助于读者将所学的数学知识应用到实际问题中,并加深对机器学习的理解。 总而言之,白话机器学习的数学PDF是一本适合初学者和希望巩固数学基础的机器学习爱好者阅读的书籍。它通过简单易懂的语言讲解机器学习所需的数学知识,帮助读者更好地掌握机器学习算法的原理和应用。 ### 回答3: 白话机器学习的数学PDF是一份以简单易懂的语言解释机器学习中所涉及的数学概念和方法的文档。机器学习是一门将数学、统计学和计算机科学相结合的学科,因此理解其中的数学原理是非常重要的。 这份PDF将数学概念和方法以白话的方式呈现,使得读者可以更轻松地理解和学习。它包含了机器学习中常用的数学概念,如线性代数、统计学和概率论等。读者可以在其中找到关于向量、矩阵、矩阵运算、概率分布、条件概率以及最小二乘法等内容的解释和示例。 这份PDF的目的是帮助读者建立对机器学习数学理论的基本认识,使其能够更好地应用这些知识于实际问题中。通过简单易懂的解释和示例,读者可以更好地理解和运用机器学习中的数学原理。 总而言之,白话机器学习的数学PDF是一份让读者更轻松地理解和学习机器学习中所涉及的数学概念和方法的文档。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值