机器学习西瓜书笔记(一)

第一章(chapter 1) 绪论 (参考机器学习西瓜书)

第一节(section 1)引言

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

即:设计算法,并通过数据进行学习/训练来提升算法效果,最终训练得到结果(模型),用以完成特定任务。
计算手段(算法) + 经验(数据) -> 模型 -> 改善系统(任务)。

第二节(section 2)基本术语

数据: 用于算法改善性能的经验。

数据集:一批关于某种事件/对象的数据的集合。

示例或样本:数据集中关于某一事件/对象的描述。(注:有时整个数据集也称为样本)。

属性/特征:反应事件/事物某些表现/性质的事项。

属性值/特征值:属性或特征的具体取值。

属性/样本/输入空间:属性张成的空间。

维度:单个样本所包含的属性数目。

特征向量:由于单个样本/示例,在属性空间中对应一个点,每个点对应一个坐标向量,故示例也称特征向量。

学习/训练:从数据集中获取知识,提升算法效果的过程。

训练集:训练过程的数据称为训练数据的集合,其中每个样本称为一个训练样本。

模型:算法训练得到的结果。

假设:学得的模型对应了数据中的某一潜在规律。

真实/真相:潜在规律自身。

标签:关于示例结果的信息,称为标签。

标签空间:所有标记的集合。

在这里插入图片描述

分类:若预测的是离散值,例如"0/1",此类学习任务称为分类。

回归:若预测的是连续值,则该学习任务称为回归。

分类中又可分为二分类与多分类任务,二分类顾名思义,只需分2类,一般正类用"1"表示,反类用"0"表示。

学得模型后,用其进行预测的过程称为测试(test),被预测的样本称为测试样本(test sample)。

此时引入聚类概念,即将训练集中样本分为若干组,每一组称为一"簇"。
在这里要明白聚类与分类的区别,就要先明白何为监督学习,何为无监督学习。

监督学习:训练数据有标记信息的学习过程。
无监督学习:训练数据没有标记信息的学习过程。

分类和回归属于典型的监督学习问题,而聚类属于无监督学习问题。故分类与聚类的区别显而易见。

机器学习的目的是使学得的模型可以更好的适用于未知样本。故引入"泛化"定义。泛化:机器学习所学得模型适用于陌生数据的能力。常说泛化性能优劣,即指模型对于陌生数据的适用性的好坏。

一般假设全体数据在样本空间上满足一个未知的分布,学习的目的为寻找最契合这个分布的一个函数。而训练样本集则是对样本空间进行独立采样后获得的子集,一般情况下,训练样本越多,得到的关于该分布的信息就越多,这样就越有可能找到这个函数,也就越有可能通过学习获得具有强泛化能力的模型。

第三节(section 3)假设空间

归纳与演绎是科学推理的两大基本手段, 前者是从特殊到一般的"泛化"过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的"特化",即从基础原理推导出具体状况。

学习过程可以看作是一个在所有假设组成的空间中进行搜索的过程,目的是找到与训练集匹配的假设。而现实中,可能会有多个假设与训练集一致,即存在一个与训练集一致的"假设集合",称之为"版本空间"。

在这里插入图片描述

第四节(section 4)归纳偏好

归纳偏好:机器学习算法在学习过程中对某种假设类型的偏好。

需要注意,任何一个机器学习算法都必有其归纳偏好,否则将无法产生确定的学习结果。
结论:对于算法A来说,若其在某些方面比算法B好,那么必然存在一些方面B比A好。这个结论对任何算法均成立,无一例外!

“没有免费的午餐”定理(No Free Lunch Theorem, NFL):无论学习算法A多么优异,学习算法B多么差,它们的期望性能完全一样(总误差与学习算法无关)。天生我材必有用?

但是需要注意,NFL定理的前提是所有问题出现的机会相同或者所有问题同等重要,但是实际情形并不是这样。而NFL定理是让我们意识到:脱离具体问题而空泛的谈论哪一个算法更好毫无意义!

第五节(section 5)发展历程

起源:机器学习的概念最早可以追溯到20世纪40年代和50年代,那时的计算机科学家开始探索如何让机器自动学习和改进。有符号主义、连接主义和行为主义。

符号主义主张人工智能源于数理逻辑,即通过逻辑符号来表达思维的形成。
连结主义强调仿人脑模型,即将神经元之间的联结关系作为人工神经网络的基础。
行为主义注重应用和身体模拟,认为控制论和感知-动作型控制系统是人工智能的关键。

早期研究:在20世纪50年代至60年代,机器学习的研究主要集中在模式识别和人工智能领域。这一时期的研究重点是如何让机器识别和理解图像、声音等数据。

统计学习方法的兴起:20世纪70年代至80年代,统计学习方法开始在机器学习领域占据重要地位。研究者们开始使用概率论和统计学的方法来处理机器学习问题,这为后来的机器学习算法奠定了基础。

神经网络的复兴:在20世纪80年代,神经网络的研究经历了一次复兴。尽管在早期由于计算能力的限制,神经网络的研究进展缓慢,但随着计算能力的提高,神经网络再次成为研究的热点。

机器学习的黄金时代:进入21世纪,随着大数据、云计算和高性能计算的发展,机器学习迎来了黄金时代。这一时期,机器学习算法在各个领域都取得了显著的成果,如语音识别、图像识别、自然语言处理等。

深度学习的突破:近年来,深度学习作为机器学习的一个重要分支,取得了巨大的成功。深度学习模型,尤其是卷积神经网络(CNN)和循环神经网络(RNN),在图像识别、语音识别和自然语言处理等任务上取得了突破性的进展。

历程总结:1950年代连接主义萌芽。1950-1980年代符号主义蓬勃发展,演绎推理盛行,但由于问题规模扩展、假设空间过大、计算能力有限,浪潮逐渐褪去。1990年代连接主义因BP算法得到关注,但由于调参、黑盒等问题,又逐渐淡去。1990年代中,研究目光转向统计学习,SVM横空出世,核函数的结合更使其称为机器学习经久不衰的经典。21世纪初,随着硬件计算能力革新,连接主义走上正规,深度学习石破天惊,成为近二十年的热点。也正是这几十年,深度学习理论逐渐完善,弥补上世纪50年代、90年代的指导理论匮乏问题,但目前深度学习仍存在黑盒、调参、优化等各项问题。

机器学习相当于人工智能的前世今生,承接着人工智能的实现方法和理论。而深度学习,则是机器学习发展历程中的一个重要分支。

第六节(section 6)应用现状

数据能力的飞速提升:
随着技术的进步,人类在数据收集、存储、传输和处理方面的能力得到了极大的增强。这包括了更高效的数据存储解决方案、更快的网络传输速度以及更强大的数据处理能力。

数据积累与需求:在社会的各个领域,如商业、医疗、教育等,都积累了大量的数据。这些数据中蕴含着丰富的信息和知识,需要有效的算法来进行分析和利用,以支持决策制定和知识发现。

机器学习的兴起:机器学习作为一门学科,因其能够从数据中自动学习和提取模式,满足了大数据分析的需求,因此得到了迅速的发展和广泛的关注。

跨学科的应用:机器学习技术不仅在计算机科学的各个分支中发挥着重要作用,如多媒体、图形学、网络通信、软件工程等,而且在体系结构、芯片设计等硬件领域也有应用。

计算机应用技术领域的进步:在计算机视觉和自然语言处理等应用技术领域,机器学习已经成为推动技术进步的关键因素。这些领域的问题通常涉及复杂的数据模式识别,机器学习算法在这方面表现出色。

机器学习研究的双重价值:一方面作为智能数据分析技术的创新源泉,另一方面作为理解人类学习机制的计算模型。

智能数据分析技术的创新源泉:机器学习通过算法自动从数据中学习模式,为数据分析提供了强大的工具。它在智能数据分析领域不断推动技术创新,帮助我们从海量数据中提取有价值的信息。

理解人类学习:机器学习研究的另一个重要意义在于,它通过建立计算模型来模拟和理解人类的学习过程。这些模型不仅有助于开发更智能的机器,还为我们提供了洞察人类大脑如何工作的窗口。
SDM模型的例子:P. Kanerva在20世纪80年代提出的SDM(Sparse Distributed Memory)模型是一个典型的例子。尽管最初设计时并未刻意模仿人脑的生理结构,但后来的神经科学研究发现,SDM中的稀疏编码机制在人脑的视觉、听觉、嗅觉等脑皮层功能中广泛存在。这一发现为理解人脑的某些功能提供了重要的启示。

自然科学探索的色彩:机器学习的研究不仅仅是信息科学的一部分,它还具有自然科学探索的性质。通过模拟人类的学习过程,机器学习帮助我们更好地理解人类大脑的工作机制,这是对自我本识的探索。

人类对自我本识的好奇:自然科学研究的核心动力之一是人类对宇宙、万物、生命以及自我本识的好奇心。理解“人类如何学习”是一个关于自我本识的重大问题,机器学习为我们提供了一种探索这一问题的方法。
跨学科的桥梁:

机器学习作为连接信息科学和神经科学的桥梁,促进了不同学科之间的交流和融合。它不仅推动了技术的发展,还加深了我们对人类认知和学习过程的理解。

  • 19
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我喝AD钙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值