LLM大模型技术实战1:大白话带你入门机器学习

一、机器学习基本概念


1、什么是机器学习

机器学习(Machine learning)是人工智能的子集,是实现人工智能的一种途径,但并不是唯一的途径。它是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。

深度学习(Deep learning)是机器学习的子集,灵感来自人脑,由人工神经网络(ANN)组成,它模仿人脑中存在的相似结构。在深度学习中,学习是通过相互关联的「神经元」的一个深层的、多层的「网络」来进行的。「深度」一词通常指的是神经网络中隐藏层的数量。

传统数学 VS 机器学习

我们可以从传统数学和机器学习对比来了解机器学习

  • 数学建模

  • 机器学习

相同点

数据驱动: 两者都利用数据来构建和验证模型。

预测和推断: 数学建模和机器学习都可以用于预测未知的输出或解释数据中的模式。

优化问题: 在某些情况下,两者都可能涉及到优化问题,例如,寻找最小化误差的参数。

不同点

目的

数学建模: 旨在用数学的形式来描述现实世界中的现象或问题,往往为了理解其背后的机制或原理。

机器学习: 主要关注的是预测和泛化。机器学习模型可能不太关心背后的机制,而是关心在未知数据上的性能。

模型构建

数学建模: 模型的形式通常基于对现象的物理、生物或经济学的理解。例如,描述人口增长的模型可能基于出生率和死亡率的估计。

机器学习: 模型的形式主要基于数据。使用的模型可能没有明确的现实意义,例如深度学习模型。

验证

数学建模: 模型的验证通常基于其是否与现实世界的观察相符合,以及其是否可以提供洞察力。

机器学习: 验证通常基于模型在独立测试集上的性能。

模型的解释性

数学建模: 模型往往更具解释性,因为它们是基于现象的某些已知原理或规律构建的。

机器学习: 尤其是某些复杂的模型,如深度神经网络,可能难以解释。尽管如此,机器学习领域也有许多工作在努力提高模型的可解释性。

应用

数学建模: 常应用于工程、物理学、经济学等领域,以帮助专家了解和控制系统。

机器学习: 广泛应用于计算机视觉、自然语言处理、推荐系统等领域,主要关注自动化和预测。

模型复杂性

数学建模: 往往倾向于使用更简单的、基于物理学或其他学科原理的模型。

机器学习: 可能使用非常复杂的模型,特别是当数据量大且复杂度高时。

总的来说, 数学建模和机器学习都是理解、解释和预测现象的工具,但它们的关注点、方法和应用有所不同。

2、机器学习三要素

机器学习三要素包括数据、模型、算法。这三要素之间的关系,可以用下面这幅图来表示:

(1)数据

数据驱动:数据驱动指的是我们基于客观的量化数据,通过主动数据的采集分析以支持决策。与之相对的是经验驱动,比如我们常说的「拍脑袋」。

(2)模型&算法

模型: 在AI数据驱动的范畴内,模型指的是基于数据X做决策Y的假设函数,可以有不同的形态,计算型和规则型等。

算法: 指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。通常是一个最优化的问题。

3、机器学习核心技术

分类: 应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。

聚类: 从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。

异常检测: 对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。

回归: 根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。

4、基本概念

示例/样本: 上面一条数据集中的一条数据。

属性/特征:「色泽」「根蒂」等。

属性空间/样本空间/输入空间X:由全部属性张成的空间。

特征向量: 空间中每个点对应的一个坐标向量。

标记: 关于示例结果的信息,如((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜),其中「好瓜」称为标记。

分类: 若要预测的是离散值,如「好瓜」,「坏瓜」,此类学习任务称为分类。

假设: 学得模型对应了关于数据的某种潜在规律。

真相: 潜在规律自身。

学习过程: 是为了找出或逼近真相。

泛化能力: 学得模型适用于新样本的能力。一般来说,训练样本越大,越有可能通过学习来获得具有强泛化能力的模型。

数据预处理: 输入(未处理的数据 + 标签)→处理过程(特征处理+幅度缩放、特征选择、维度约减、采样)→输出(测试集 + 训练集)。

准确率:是指有在所有的判断中有多少判断正确的,即把正的判断为正的,还有把负的判断为负的;总共有 TP + FN + FP + TN 个,所以准确率:(TP+TN) / (TP+TN+FN+FP)

召回率:是相对于样本而言的,即样本中有多少正样本被预测正确了,这样的有TP个,所有的正样本有两个去向,一个是被判为正的,另一个是错判为负的,因此总共有TP+FN个,所以,召回率 R= TP / (TP+FN)

精确率:是相对于预测结果而言的,它表示的是预测为正的样本中有多少是对的;那么预测为正的样本就有两种可能来源,一种是把正的预测为正的,这类有TruePositive个, 另外一种是把负的错判为正的,这类有FalsePositive个,因此精确率即:P=TP/(TP+FP)

二、机器学习分类


1、机器学习分类

机器学习主要分为三大类:监督学习、非监督学习、强化学习,而监督学习和非监督学习中又衍生出半监督学习。

监督学习

Supervised Learning是机器学习的一种方法,其模型是通过输入-输出(有标签的数据)对进行训练,目标是从给定的数据中学习一个映射函数,以便在给定新的输入时,模型可以预测相应的输出 。训练过程涉及到输入数据和其相应的标签,并尝试找到这两者之间的关系。一旦模型被训练,它可以用来预测新、未标签数据的输出。

非监督学习

Unsupervised Learning模型被训练在没有标签的数据上。它的目的是学习数据的底层结构、分布或表示,而不是预测标签。与监督学习不同,非监督学习的目标并不是预测一个输出。相反,它试图通过某种方式学习数据的结构,这可以是通过聚类、降维或生成模型等方式来实现的。

无监督学习要解决的基本问题

A.聚类(Clustering)

聚类是将样本集合中相似的样本分配到相同的类别。聚类学习时,样本通常是欧氏空间中的向量,类别事先不确定,它们是从数据中通过学习自动发现的,但类别的个数通常是要事前给定的

B.降维(Dimensionality reduction)

降维是将样本集合中的样本从高维空间转换到低维空间。通过降维可以更好的表示样本数据间关系和样本数据的结构。在从高维空间转换到低维空间的过程中,低维空间不是事先给定的,而是从样本数据中自动发现的,但低维空间的维度数通常是事先给定的。降维有线性降维和非线性降维。

C.概率模型估计

概率模型估计简称概率估计,它假设训练数据是由某个概率模型生成的,遵循着一定的概率分布,概率模型估计的目标就是通过训练数据来学习这个概率模型的结构和参数。

强化学习

Reinforcement Learning是通过与环境交互来学习如何行动,从而最大化某种定义的长期回报。与传统的监督学习不同,强化学习通常涉及决策问题,其中每个行动都会影响未来的回报。

半监督学习

Semi-supervised Learning是介于两个极端之间(监督式是指整个数据集被标记,而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常,SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。)学习正如其名称所示,介于两个极端之间(监督式是指整个数据集被标记,而非监督式是指没有标记)。半监督学习任务具有一个标记和一个未标记的数据集。它使用未标记的数据来获得对数据结构的更多理解。通常,SSL使用小的带标签数据集和较大的未带标签数据集来进行学习。

为什么会用半监督学习

半监督学习位于监督学习和非监督学习之间,利用少量的标记数据和大量的未标记数据进行学习。以下是为什么要使用半监督学习的原因:

  • 数据标注成本高 :在很多应用中,收集大量数据是相对容易的,但为这些数据打标签则既昂贵又耗时。例如,在医学图像领域,一个专家可能需要花费大量时间来手动标注图像中的特定结构或病变。利用半监督学习,可以用少量的标注数据和大量的未标注数据共同训练模型。

  • 利用数据的完整潜力 :未标记的数据包含有关数据分布的有用信息。半监督学习方法尝试利用这些信息来改善模型的性能。

  • 提高泛化能力 :在某些情况下,利用大量的未标记数据可以帮助模型更好地泛化到新的、未见过的数据。

  • 数据标注可能存在误差 :在某些场景中,即使数据被标注,标签也可能存在噪音或误差。在这种情况下,使用半监督学习方法,结合大量的未标记数据,可能会提供一个更稳健的学习策略。

  • 在某些任务中,有很多相关的未标记数据 :例如,在自然语言处理中,我们可能有少量标记的数据集,但可以从网络上轻松获得大量的相关文本。半监督学习可以利用这些未标记的文本来提高模型的性能。

  • 适应数据的变化 :在动态环境中,数据分布可能随时间而变化。利用半监督学习,可以定期利用新收集的未标记数据来更新模型,使其适应变化。

总之,半监督学习提供了一种在有限标记数据的情况下利用未标记数据的方法,这对于许多实际应用来说是非常有价值的。

2、常见算法简介
监督学习算法

线性回归:对数值型连续随机变量进行预测和建模的监督学习算法(即最后输出的特征向量的标签是连续值),即找拟合函数

  • 特点:简单、易于理解和实现,基于线性假设建立输入和输出之间的关系。

  • 应用场景:预测房价、股票价格、温度等连续值问题。

  • 优点:计算效率高,模型可解释性强。

  • 缺点:假设数据符合线性关系,对于非线性问题需要转换或采用其他方法。

支持向量机 (SVM):目标在于在空间中寻找一个超平面,使得数据集可以被超平面分开,从而完成分类任务

  • 特点:能够处理线性和非线性问题,通过核技巧可以解决非线性分类问题。

  • 应用场景:文本分类、图像识别、生物信息学等。

  • 优点:在高维空间表现良好,对于边界清晰的分类问题效果优秀。

  • 缺点:对于大规模数据集训练效率较低,参数选择和模型调优较为复杂。

无监督学习算法

K-均值(K-Means) :算法接受参数k;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较小

  • 特点:基于中心的聚类算法,通过迭代优化簇中心位置。

  • 应用场景:市场细分、社交网络分析、图像分割等。

  • 优点:算法简单,易于实现,计算效率高。

  • 缺点:需要预先指定簇的数量,对初始簇中心敏感,可能陷入局部最优。

主成分分析 (PCA):

  • 特点:一种统计方法,通过正交变换将数据转换到新的坐标系统,使得最大方差位于第一个坐标(主成分)。

  • 应用场景:数据降维、特征提取、图像压缩等。

  • 优点:能够有效减少数据的维度,去除噪声,提取重要特征。

  • 缺点:可能会丢失一些重要信息,对于非线性数据降维效果不佳。

深度学习算法

卷积神经网络 (CNNs):一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的

  • 特点:包含卷积层、池化层和全连接层,特别适合处理具有网格结构的数据,如图像。

  • 应用场景:图像分类、物体检测、视频分析等。

  • 优点:能够自动学习空间层次结构的特征,对于图像和视频数据效果显著。

  • 缺点:对于序列数据的处理能力有限,需要大量标注数据进行训练。

循环神经网络 (RNNs):

  • 特点:具有循环结构,能够处理序列数据,捕捉时间序列中的动态时间行为。

  • 应用场景:语言模型、机器翻译、时间序列预测等。

  • 优点:能够处理任意长度的序列数据,捕捉长期依赖关系。

  • 缺点:训练过程可能较慢,容易受到梯度消失或梯度爆炸的影响。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

#### 一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
img

四、AI大模型商业化落地方案

img

  • 13
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值