Datawhale X 李宏毅苹果书 AI夏令营第五期

空口也只是白

已于 2024-08-22 22:33:57 修改

阅读量550

点赞数 5

文章标签：人工智能深度学习

于 2024-08-22 22:31:42 首次发布

本文链接：https://blog.csdn.net/canfengly/article/details/141439459

版权

在第五期，Datawhale开源项目孵化的《深度学习详解》新书发布之际，我们一起抓住暑假的尾巴

共学深度学习的理论，互相学习和探讨，化被动为主动~ 学得开心！

本方向的核心学习目标是——通过《深度学习详解》和李宏毅老师 21年的机器学习课程视频，入门机器学习，并尝试学习深度学习，展开代码实践（选修）

《深度学习详解》主要内容源于《机器学习》（2021年春），选取了《机器学习》（2017年春）的部分内容，在这些基础上进行了一定的原创，补充了不少除这门公开课之外的深度学习相关知识。

为了尽可能地降低阅读门槛，笔者对这门公开课的精华内容进行选取并优化，对所涉及的公式都给出详细的推导过程，对较难理解的知识点进行了重点讲解和强化，以方便读者较为轻松地入门。

在理论严谨的基础上，本书保留了公开课中大量生动有趣的例子，帮助读者从生活化的角度理解深度学习的概念、建模过程和核心算法细节，包括——

卷积神经网络、Transformer、生成模型、自监督学习（包括 BERT 和 GPT）等深度学习常见算法，

对抗攻击、领域自适应、强化学习、元学习、终身学习、网络压缩等深度学习相关进阶算法。

学习经历与心得

一、什么是机器学习？

机器学习=寻找一种函数

如何寻找这个函数？
①定一个函数集合

②判断函数的好坏

③选择最好的函数

机器学习三板斧
①设计模型model

②判断模型的好坏

③选择最好的函数，优化模型

3.1修改模型，增加数据维度

3.2增加正则因子，使函数更加平滑，让参数w取值更小。（x变化较小时，整个函数结果不会变化太大，结果更准）

学习路线
监督学习：有数据标注情况下学习（回归、分类）

半监督学习：训练数据中带标记的数据不够多

迁移学习：在已学习基础上，做看似和以前学习不相关的事情，但实际效果很好（在猫狗识别基础识别大象老虎等）

非监督学习：没有具体标注数据的情况下学习（机器阅读、机器绘画）

结构化学习：超越简单的回归和分类，产生结构化的结果（如图片、语言、声音）

二、机器学习算法的类型

1. 有监督学习
有监督学习通常是利用带有专家标注的标签的训练数据，学习一个从输入变量X到输入变量Y的函数映射。 Y = f (X)

训练数据通常是(n×x,y)的形式，其中n代表训练样本的大小，x和y分别是变量X和Y的样本值。

利用有监督学习解决的问题大致上可以被分为两类：

分类问题：预测某一样本所属的类别（离散的）。比如给定一个人（从数据的角度来说，是给出一个人的数据结构，包括：身高，年龄，体重等信息），然后判断是性别，或者是否健康。

回归问题：预测某一样本的所对应的实数输出（连续的）。比如预测某一地区人的平均身高。

下面所介绍的前五个算法（线性回归，逻辑回归，分类回归树，朴素贝叶斯，K最近邻算法）均是有监督学习的例子。

除此之外，集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的预测组合起来，用来预测新的样本。本文中所介绍的第九个和第十个算法（随机森林装袋法，和XGBoost算法）便是集成技术的例子。

2. 无监督学习
无监督学习问题处理的是，只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据，对数据的结构建模。

可以利用无监督学习解决的问题，大致分为两类：

关联分析：发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋，那么商家就会把鸡蛋和面包放在相邻的货架上。

聚类问题：将相似的样本划分为一个簇（cluster）。与分类问题不同，聚类问题预先并不知道类别，自然训练数据也没有类别的标签。

维度约减：顾名思义，维度约减是指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法，可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。

下面介绍的第六-第八（Apriori算法，K-means算法，PCA主成分分析）都属于无监督学习。

3. 强化学习
通过学习可以获得最大回报的行为，强化学习可以让agent（个体）根据自己当前的状态，来决定下一步采取的动作。

强化学习算法通过反复试验来学习最优的动作。这类算法在机器人学中被广泛应用。在与障碍物碰撞后，机器人通过传感收到负面的反馈从而学会去避免冲突。在视频游戏中，我们可以通过反复试验采用一定的动作，获得更高的分数。Agent能利用回报去理解玩家最优的状态和当前他应该采取的动作。

三、常见机器学习概念介绍：

1.常见机器学习算法概念简介：
1、监督学习（SupervisedLearning）：有类别标签的学习，基于训练样本的输入、输出训练得到最优模型，再使用该模型预测新输入的输出；

代表算法：决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林、AdaBoost、遗传算法；

2、半监督学习（Semi-supervisedLearning）：同时使用大量的未标记数据和标记数据，进行模式识别工作；

代表算法：self-training(自训练算法)、generative models生成模型、SVMs半监督支持向量机、graph-basedmethods图论方法、 multiviewlearing多视角算法等；

3、无监督学习（UnsupervisedLearning）：无类别标签的学习，只给定样本的输入，自动从中寻找潜在的类别规则；

代表算法：主成分分析方法PCA等，等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法、局部切空间排列方法等；

4、HOG特征：全称Histogram of Oriented Gradient（方向梯度直方图），由图像的局部区域梯度方向直方图构成特征；

5、LBP特征：全称Local Binary Pattern（局部二值模式），通过比较中心与邻域像素灰度值构成图像局部纹理特征；

6、Haar特征：描述图像的灰度变化，由各模块的像素差值构成特征；

7、核函数（Kernels）：从低维空间到高维空间的映射，把低维空间中线性不可分的两类点变成线性可分的；

8、SVM：全称Support Vector Machine（支持向量机），在特征空间上找到最佳的超平面使训练集正负样本的间隔最大；是解决二分类问题的有监督学习算法，引入核方法后也可用来解决非线性问题；

9、Adaboost：全称Adaptive Boosting（自适应增强），对同一个训练集训练不同的弱分类器，把这些弱分类器集合起来，构成一个更强的强分类器；

10、决策树算法（Decision Tree）：处理训练数据，构建决策树模型，再对新数据进行分类；

11、随机森林算法（Random Forest）：使用基本单元（决策树），通过集成学习将多棵树集成；

12、朴素贝叶斯（Naive Bayes）：根据事件的先验知识描述事件的概率，对联合概率建模来获得目标概率值；

13、神经网络（Neural Networks）：模仿动物神经网络行为特征，将许多个单一“神经元”联结在一起，通过调整内部大量节点之间相互连接的关系，进行分布式并行信息处理

空口也只是白

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营第五期

机器学习=寻找一种函数如何寻找这个函数？①定一个函数集合②判断函数的好坏③选择最好的函数机器学习三板斧①设计模型model②判断模型的好坏③选择最好的函数，优化模型3.1修改模型，增加数据维度3.2增加正则因子，使函数更加平滑，让参数w取值更小。（x变化较小时，整个函数结果不会变化太大，结果更准）学习路线监督学习：有数据标注情况下学习（回归、分类）半监督学习：训练数据中带标记的数据不够多。
复制链接

扫一扫