机器学习理论基础定义

0 介绍

机器学习是人工智能(AI)的一个子领域,它专注于开发算法和模型,使计算机能够从中学习,并基于数据做出预测或决策。机器学习系统使用统计技术从大量数据中学习模式和关系,而不是被明确地编程来执行任务。机器学习中的学习过程包括在一个数据集上训练一个模型,该数据集由输入-输出对组成。该模型通过迭代地调整其参数来学习识别模式并进行预测。有几种类型的机器学习方法,包括有监督学习、无监督学习和强化学习。
**监督学习:**在监督学习中,模型在一个有标记的数据集上进行训练,其中输入数据与相应的输出标签配对。该模型的目标是学习从输入到输出的映射,以便它能够对新的、看不见的数据做出准确的预测。
**无监督学习:**无监督学习处理未标记的数据,该算法的目标是在没有明确指导的情况下找到数据中的模式或关系。聚类和降维是无监督学习中常见的任务。
**强化学习:**强化学习包括训练一个模型,通过与环境的互动来做出一系列的决策。该模型根据其行为接受奖励或惩罚形式的反馈,允许它随着时间的推移学习最优策略。
机器学习有广泛的应用,包括图像和语音识别、自然语言处理、推荐系统、自动驾驶汽车等。它在分析和从大型数据集中提取有价值的见解方面发挥着至关重要的作用,有助于各种行业的进步。

1 定义

形式化定义:以P评价计算机程序关于某类任务T上的性能,如果某程序利用经验E使T中任务获得了性能改善,则称该程序对经验E进行了学习。

“机器学习”形式化定义三要素:
1.明确指定的任务T
2.评价任务性能P
3.用于改善任务性能的经验E

已手写数字数据集MNIST识别为例:
数据集介绍:
MNIST数据集共有7000张图像,其中训练集60000张,测试集10000张,所有图像都是28*28的灰度图像,每张图像包含一个手写数字。
标注类别:共10个类别,每个类别代表0-9之间的数字。

在这里插入图片描述

图1 mnist数据集
如图1 :MNIST数据集总共有70000张图片,其中60000张为训练集(图1中mnist_train_jpg_60000文件夹)。10000张为测试集(图1中mnist_test_jpg_10000文件夹)。

在这里插入图片描述
图2 :左a为训练集文件、右b为测试集文件

如图2:我们看到训练集、测试集文件是一样的类型。属于同分布数据。
在这里插入图片描述
图 3 :数据标签
如图3:为训练集标签,我们看标签有哪些信息。28755_0.jpg 0 其中文件名如:28755_0.jpg 代表训练集中的一个图像。后面的 0 代表数据的标签。测试集同理。

手写数字识别的机器学习形式化定义:
任务T:识别或预测给定的手写体数字图像的类别
经验E:已知类别标记的手写体样本图像构成的数据集
评价任务性能P:学习系统关于训练样本集的预测正确率

2 理解

同俗的讲,机器学习的过程就是让机器利用已有的经验使得在对应上的任务提高的过程。也就是说,我们希望机器能够从经验数据中习得一个能够对新样本进行预测的模型。
那么如何理解“使用机器学习解决问题的目的是为了获得一个复杂函数?”

**1. 机器学习的目的:**采用机器学习的主要目标是解决问题。机器学习是一套技术,它允许计算机从数据中学习模式,并做出预测或决策,而无需为特定的任务进行明确的编程。

**2.获得复杂函数:**在机器学习中,“函数”是指输入数据和输出预测之间的关系。术语“复杂函数”意味着由机器学习模型所学习到的关系是复杂的,不容易通过简单的规则或方程式来描述。

**3. 机器学习中的函数:**例如,在监督学习中,机器学习模型旨在学习一个将输入数据映射到相应的输出标签的函数。这个函数可以很复杂,在数据中捕获微妙的非线性模式。

**4.复杂性:**当输入特征和输出预测之间的关系不是简单的,并且涉及到复杂的交互或依赖关系时,复杂性就出现了。机器学习模型能够捕获和表示这种复杂性,允许它们处理具有不同和复杂模式的真实场景。

总之,数学是科学的基础,基本上所有的问题都可以被形式化定义为一个数学问题,这个问题被定义的越准确,我们对复杂问题的理解越深刻。我们把输入设为X ,输出设为 Y。那么y与x之间就要有一个映射关系Y=f(X) 。我们求得了这个函数,便准确的把握了这个问题所在。函数用来表示数据之间的依赖性和规律,从而预测未知的输出。而机器学习作为人工智能的一个子领域,其目的正是旨在创建能够从数据中学习并执行复杂任务的系统。所以我们可以理解为使用机器学习解决问题的目的是为了获得一个复杂函数。

3 相关概念

**样本:**是指用来训练或测试机器学习模型的数据单元,通常是一个对象或一个事件的描述。例如,MNIST数据集包含了70000个手写数字的样本,每个样本是一个28*28像素的灰度图像。
**特征取值:**是指特征在某个样本上的具体数值。例如,MNIST数据集的特征是0到255之间的整数。
**特征向量:**是指将一个样本的所有特征按照一定的顺序排列成一个向量。例如,MNIST数据集的特征向量是一个长度为784(28x28)的一维向量。
**特征维数:**是指构成特征向量的特征数量。例如,MNIST数据集的特征维数784。
类别:是指将样本按照某种标准或规则分组的结果。例如,MNIST数据集有10个类别,分别对应0到9这10个数字。
**类别标签:**是指用来表示类别的符号或编码。MNIST数据集可以用0到9这10个整数作为类别标签,也可以用长度为10的二进制向量作为类别标签。
**训练集:**是指用来训练机器学习模型的样本子集。训练集通常占据整个数据集的较大比例。通过训练集,机器学习模型可以学习到样本和输出之间的关系和规律。
**测试集:**是指用来评估机器学习模型泛化能力(即对未知数据的预测能力)的样本子集。测试集通常占据整个数据集的较小比例。
**验证集:**是指用来调整机器学习模型参数或选择最优模型的样本子集。验证集通常从训练集中划分出来,占据整个数据集的一定比例。通过验证集,可以比较不同参数或不同模型在相同数据上的表现,并选择最佳方案。

4 相关任务

分类任务:
分类是机器学习中的一项基本任务,属于有监督学习,即从给定的有标记训练数据集中学习一个函数,它包括根据其特征为输入数据分配预定义的标签或类别。其目标是训练一个模型来学习数据中的模式,以便它能够准确地将新的、看不见的实例分类到适当的类别中。分类任务在各种领域和应用程序中普遍存在。常见的分类算法有逻辑回归、决策树、 支持向量机(SVM)、随机森林、神经网络等。

回归分析:
回归是一种监督学习任务,用于预测一个连续值的输出,如价格、温度、分数等。回归任务的输入是一个或多个特征,输出是一个实数。例如,根据房屋的面积、卧室数、地理位置等特征,预测房屋的售价。

聚类分析:
聚类是一种无监督学习任务,用于将数据划分为若干个相似的子集,称为簇。聚类任务的输入是一组无标签的数据,输出是每个数据所属的簇的标识。例如,根据客户的购买行为、偏好、收入等特征,将客户分为不同的市场细分。

5 学习流程

让机器学习学习前需要确定三件事:
1、选择⼀个具有未知参数的模型;
2、定义损失函数
3、确定优化⽅法
之后便根据优化⽅法开始训练模型,直⾄达到预期标准后,将训练好的模型进⾏保存,就可以⽤它对未知数据进⾏预测了。

假设我们想要用机器学习来预测房屋的售价,我们首先需要收集一些有关房屋的数据,例如面积、卧室数、地理位置等特征,以及对应的售价。这些数据就是我们的训练集,其中每个数据都有一个已知的输出或结果,即房屋的售价。

第一步,我们需要选择一个具有未知参数的模型。一个常用的模型是线性回归模型,它假设房屋的售价和特征之间存在一个线性关系,即
在这里插入图片描述

其中y是房屋的售价,在这里插入图片描述是第i个特征,在这里插入图片描述是第i个参数,我们的目标是通过机器学习来估计出这些参数的值,使得模型能够尽可能准确地预测房屋的售价。
第二步,我们需要定义损失函数。损失函数是用来衡量模型预测和真实结果之间的差距或误差的函数。一个常用的损失函数是均方误差(MSE),它计算了模型预测和真实结果之间的平方差的均值,即

在这里插入图片描述

其中m是训练集的数量,在这里插入图片描述是第 i个数据的真实结果,在这里插入图片描述是第 i个数据的模型预测。我们的目标是通过机器学习来最小化损失函数的值,使得模型能够尽可能减少预测误差。

第三步,我们需要确定优化方法。优化方法是用来更新模型参数以减少损失函数值的方法。一个常用的优化方法是梯度下降(GD),它根据损失函数对参数的偏导数来调整参数的值,即
在这里插入图片描述

其中, 在这里插入图片描述是第j个参数,在这里插入图片描述是学习率(一个控制更新步长的正数)在这里插入图片描述是损失函数对第j个参数的偏导数。我们的目标是通过机器学习来重复执行梯度下降算法,直到参数收敛到一个局部最小值或全局最小值。
之后,我们就可以根据优化方法开始训练模型了。训练模型就是用训练集中的数据来更新模型参数,并计算损失函数值。我们可以设置一个迭代次数或一个容忍误差作为训练结束的条件。当训练结束时,我们就得到了一个训练好的模型,并将其保存起来。最后,我们就可以用训练好的模型来对未知数据进行预测了。
预测就是用模型根据输入特征来计算输出结果。我们可以用一些没有在训练集中出现过的数据来测试模型的泛化能力(即对未知数据的预测能力)。我们可以用一些评估指标来衡量模型的预测性能,例如均方根误差(RMSE),决定系数(R-squared)等。

6 结语

越往后会越来越难,我想今天的好多名词就足够大家消化很久了。我常常再想,为什么我国很大一部分的大学生在大学四年貌似学不到东西。而往往在企业中的成长确式巨大的。只不过在过去,企业用人需求较大,愿意给大家时间在企业中继续成长。而如今,在供需关系严重失衡时,我们需要思考,如何在去企业之前,就具备一定的职业技能。我想这是我们开展职业教育本科试点的初衷。
有以下原因供大家参考:
**1、片面的教育:**当前高等教育中大部分教学考核都以纸笔测验为主,侧重基础知识和基本技能,脱离应用场景。
**2、问题逻辑:**高等教育的“学科逻辑”下日益细化的专业知识与“问题逻辑”的跨学科知识格格不入。欠缺将各理论知识融会贯通的能力。

如下图4,我把它定义为目标导图:其中我们想到达我们的目标有两种方式,一是不断扩充自己的知识边界,如到达紫色线和目标终点线。二是走黄色通道直达目标。
在这里插入图片描述

图 4 :目标导图
一点点扩充知识边界,无疑是最扎实的,但是速度确是最慢的。就好比目前的细化的学科思想。我们不停的划分出各种各样的学科、技术。一点点获取,得到。
第二种,是我们要明确自己的目标。以目标为导向。时刻盯着目标所需要的那点点知识。从图中看,黄色通道的面积要远远小于到达目标所需要的边界知识。

所以想有一个不荒废的大学生活 : 找准目标 ----> 针对目标搜集必要知识----->项目实战
或者说未来有一个清晰的职业规划: 职业目标 ----> 该职业所需必要技能---->多实习
作业: 文中概念较多,大家多读几遍,对于不懂的名词都搜索信息弄懂。
附件:mnist手写数字识别数据集下载
https://download.csdn.net/download/q774798577/88768740
本文未参考相关文献:部分内容参考 抖音账号: 教AI的陶老师 通常日常学习获得。

  • 22
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值