第一章 机器学习技术分类

系列文章目录

第一章 机器学习技术分类


目录

系列文章目录

前言

一、机器学习

二、按方法分类

1.监督学习

2.无监督学习

3.半监督学习

4.强化学习

5.迁移学习

三、按模型分类

1.传统的机器学习

2.人工神经网络

    2.1全连接神经网络FNN

    2.2卷积神经网络

    2.3循环/递归神经网络

    2.4Transformer

    2.5对抗生成网络GAN

    2.6自编码网络

    2.7图神经网络

​编辑

参考文献


前言

        本来想着整理回顾深度学习的基础知识,顺便将文档中的内容发送到博客中分享给更多的人。如果有错误的地方请大家指出,我将定期更正。

一、机器学习

        机器学习是人工智能的一个子领域,研究如何让计算机系统利用数据和经验来不断改善和优化自身的性能。其核心思想是通过算法和模型让计算机从数据中学习,以数据驱动来提升生产力、提升生产效率,而不是通过明确的编程规则来执行任务。

        机器学习适用于各种领域,如图像识别、语音识别、语言理解等。

二、按方法分类

1.监督学习

        又叫有监督学习,是机器学习最常见的学习方式,可以由训练资料中学到或建立一个模式,并依此模式推测新的实例。

        训练资料是由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

        在监督学习中,模型通过预期输出和实际输出之间的误差来学习预测或分类。比如,我们可以通过标记猫和狗的照片来训练一个模型,让它能够自动识别新的猫和狗照片。

2.无监督学习

        又称非监督式学习,利用未标记的数据进行训练,自动对输入的资料进行分类或分群。在自我学习中,模型尝试从无标注的数据中提取有用的信息,以改进其预测或分类性能。

        无监督学习的主要运用包含:聚类分析(K-Means聚类、概率模型估计)、关系规则(Apriori 算法)、降维(主成分分析、奇异值分解、自编码器)。

3.半监督学习

        半监督学习介于有监督学习和监督学习之间,它利用少量标记数据和大量未标记数据来训练模型。半监督学习的目标是找到一个平衡点,既能利用标记数据的结构信息,又能利用未标记数据的规模优势,旨在缓解训练数据中有标签数据有限的问题。

        无监督学习适用的的问题往往有着大量的无标签样本,同时获得有标签样本成本较高。

        直观地说,学习问题可以看成一次考试,有标签样本是为了帮助学习,由老师解答的样题。

4.强化学习

        强调如何基于环境而行动,以取得最大化的预期利益。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡。

        其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”。

        在机器学习问题中,环境通常被抽象为马尔可夫决策过程(MDP),因为很多强化学习算法在这种假设下才能使用动态规划的方法。传统的动态规划方法和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。

        强化学习算法在处理数据时使用奖惩模式,从每个操作的反馈中学习,并自行发现实现最终结果的最佳处理路径。它模仿了人类为实现目标所采取的反复试验的学习过程:有助于实现目标的软件操作会得到加强,而偏离目标的操作将被忽略。

5.迁移学习

        迁移学习是一种特殊类型的有监督学习,它利用已经在一个任务上学到的知识来帮助解决另一个任务。迁移学习的关键在于将源任务的知识和结构迁移到目标任务上,以减少目标任务的学习难度。

        一个简单的比喻就是一位学生利用已经学过的数学基础知识来学习物理或化学等其他学科。在这个比喻中,迁移者将已经学过的知识应用于新的领域,以加速对新领域的学习和理解。

三、按模型分类

1.传统的机器学习

        包括线性回归、逻辑回归、Lasso回归、Ridge回归;线性判别分析;近邻;决策树;感知机;支持向量机;AdaBoost、GBDT、XGBoost、LightGBM、CatBoost;随机森林;聚类算法与kmeans;主成分分析、奇异值分解;最大信息熵、朴素贝叶斯、贝叶斯网络、EM算法、隐马尔可夫模型、条件随机场和马尔可夫链蒙特卡洛方法。

2.人工神经网络

    2.1全连接神经网络FNN

        Feed-Forward Neural Network包括一个输入层、多个隐藏层、一个输出层。仅有前向连接,没有反馈连接。

        FNN由Geoff Hinton在1990年发明backpropagation algorithm

        FNN适合通过监督学习完成分类和回归任务。FNN不能处理序列数据,在图像上的表现也不理想。

    2.2卷积神经网络

        用于处理结构网格数据的人工神经网络,如图像。CNN可以非常高效的在计算机视觉任务中实现模式识别和特征提取。

        CNN可以看作是自动的特征提取器。CNN在卷积过程中使用相邻像素的信息降采样图像,通过卷积层和池化层高效学习图像数据的层次化表现。

        CNN的概念是由Yann le在1998年以LeNet-5首次提出,实现手写字体识别。之后,在2012年,CNN在AlexNet中被重新介绍。

    2.3循环/递归神经网络

        RNN因为其具有独特的动态地处理序列数据的能力,非常适合自然语言处理 (NLP) 和时间序列分析。RNN中的循环连接,使网络能够维持内部记忆或者隐藏状态,可以捕捉依赖关系。

        Long Short-Term Memory(LSTM) 和 Gated Recurrent Units (GRU) 是RNN常见的单元类型。(现在Transformer成为更适合语言处理的模型。但是如果数据集比较小,没有必要使用很多的训练参数和训练次数,此时RNN表现更好)

    2.4Transformer

        过去LSTM或者GRU加注意力机制是语言翻译任务的最先进解决方案,但是现在Transformer已经成为NLP任务事实上的标准。

        Transformer在论文Attention is all you need中被最先提出的模型架构。Transformer完全依靠注意力机制在整个数据集上建立输入和输出之间的全局依赖关系。

        Transformer中有非常多的参数实现位置编码、提高记忆力、增强对某些关键词的注意力。总之,Transformer 通过引入高度可并行和可扩展的架构重新定义了深度学习的格局,促进了不同领域的突破。自注意力机制,加上并行处理输入序列的能力,使 Transformer 成为处理文本、图像处理和语音识别等各种机器学习任务的强大而灵活的选择。

    2.5对抗生成网络GAN

        GAN由Ian Goodfellow和同事于2014年提出的一类人工智能模型。GAN 采用​​对抗训练的独特原理进行运行,其中两个神经网络(生成器和鉴别器)参与竞争过程以创建逼真的合成数据。

        GAN 由一个生成器和一个鉴别器组成。生成器负责创建真实数据,鉴别器负责区分真实数据和合成数据。生成器不断改进其输出以欺骗鉴别器,而鉴别器则提高其区分真实样本和生成样本的能力。这种对抗性训练过程不断迭代,直到生成器生成的数据与真实数据无法区分,达到平衡状态。

    2.6自编码网络

        自动编码器神经网络是专为数据编码和解码而设计的无监督学习模型。这些网络由编码器和解码器组成,可以学习输入数据的有效表示,将其压缩到低维空间,然后如实地重建。

        自动编码器用于图像和信号压缩,在保留基本特征的同时降低数据的维度。它们还可以用于异常检测,通过学习数据中的正常模式,自动编码器可以识别异常或异常值,使其对网络安全和故障检测很有价值。自动编码器还有助于学习数据的分层表示,有助于后续机器学习任务的特征提取。

    2.7图神经网络

        一种处理可以表示成图的数据的人工神经网络。

        一个卷积神经网络层,可以视作在由像素构成的图(仅相邻像素使用边连接)使用GNN。一个Transformer层,可以视作将GNN应用到使用单词或者标记作为节点的双向图。

        几种不同的GNN架构包括:Graph convolutional network、Graph attention network、Gated graph sequence neural network。

参考文献

https://github.com/loveunk/machine-learning-deep-learning-notes

机器学习、深度学习、强化学习、迁移学习的关联与区别_强化学习和深度学习-CSDN博客

自我学习、监督学习、半监督学习和迁移学习的区别

https://zh.wikipedia.org/wiki/

什么是无监督学习? | IBM

收藏 | 机器学习模型与算法最全分类汇总!-CSDN博客

Six Types of Neural Networks You Need to Know About | SabrePC Blog


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值