机器学习简要概览

最新推荐文章于 2024-07-15 00:36:25 发布

三耳01

最新推荐文章于 2024-07-15 00:36:25 发布

阅读量1.9k

点赞数 1

分类专栏：杂七杂八的学习笔记文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/niexinyu0026/article/details/126909788

版权

杂七杂八的学习笔记专栏收录该内容

25 篇文章 5 订阅

订阅专栏

机器学习简要概览

0 概念
1 有监督学习（Supervised Learning）
2 无监督学习（Unsupervised Learning）
3 强化学习（Reinforcement Learning,RL）
4 机器学习—迁移学习（Transfer Learning,TL）
5 机器学习—联邦学习（Federated Learning,FL）

是关于网上一个免费小课（来自点头AI）的图文整理。非常简洁，只是一个概览，可以根据这个概览一步步学习。

0 概念

机器学习作为人工智能的核心，与计算机视觉、自然语言处理、语音处理和知识图谱密切关联
根据学习范式的不同，机器学习可划分为有监督学习、无监督学习、强化学习（又称为半监督学习）。
在这里插入图片描述

1 有监督学习（Supervised Learning）

从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据该函数预测结果。
在这里插入图片描述

1.1 有监督学习—逻辑回归（Logistic Regression,LR）

逻辑回归是一种“学习某事件发生概率”的算法，可对某个事件发生与否进行二元分类。
使用的是 Sigmoid 函数，输出结果范围在[0,1]之间，逻辑回归的目标是发现特征与特定结果可能性之间的联系。
例：根据学习时长预测学生是否通过考试，响应变量为“通过和未通过考试”。
在这里插入图片描述

1.2有监督学习—支持向量机（Support Vector Machine,SVM）

是“以间隔最大化为基准，学习得到尽可能远离数据的决策边界”算法，支持向量是确定决策边界的重要数据。
在这里插入图片描述

1.3有监督学习—决策树（Decision Tree）

是一种树状结构，通过做出一系列决策(选择)来对数据进行划分。
一棵决策树一般包含一个根结点、若干个内部结点和若干个叶结点，其中每个内部结点表示一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。
决策树生成是一个递归过程。
在这里插入图片描述

1.4有监督学习—朴素贝叶斯

常用于文本分类和垃圾邮件判定等自然语言处理中的分类问题。具体来说，就是计算数据为某个标签的概率，并将其分类为概率值最大的标签。

例：如训练数据类别为电影：

那部让人感动的电影名作重映
华丽的动作电影首映
复映的名作感动了世界

训练数据类别为宇宙：

沙尘暴笼罩着火星
火星探测终于重新开始
VR中看到的火星沙尘暴让人感动

验证数据为‘复映的动作电影名作让人感动’。
在这里插入图片描述

2 无监督学习（Unsupervised Learning）

主要是指训练数据在不含标记的情况下生成模型（通常在缺乏足够先验知识难以人工标注类别，或进行人工类别标注的成本高等情况下），无监督学习的目标是通过对无标签样本的学习来揭示数据的内在特性及规律。
常见的无监督学习适用场景涵盖发现异常数据、用户类别划分、推荐系统等场景。

主要涉及聚类和降维问题。

聚类：K-means聚类、概念聚类、模糊聚类
降维：主成分分析、线性判别分析、多维尺度分析

3 强化学习（Reinforcement Learning,RL）

又称再励学习或评价学习，是系统从环境到行为映射的学习，以使激励信号（强化信号）函数值最大化。强化学习的关键要素有代理（Agent）、环境（Environment）、状态（State）、环境回报（Reward）。
它不依赖标注数据，有效解决序列行动优化问题。

特点：
①学习过程中没有监督者，只有激励信号；
②反馈信号是延迟而非即时的；
③学习过程具有时间序列性质；
④系统的动作会影响到后续的数据。
在这里插入图片描述
强化学习可分为策略迭代算法和价值迭代算法两类，典型算法包括【策略梯度】、【Sarsa】、【Q-Learning】、【Actor-Critic】等。
强化学习在游戏、自动驾驶、推荐系统等领域有着广阔应用前景。

3.1 强化学习—策略梯度（Policy Gradient,PG）

是一种基于策略优化的强化学习算法。强化学习中，机器通过判别特定状态下采取不同动作所得环境回报大小来评价采取该动作的优劣。有效处理高维及连续动作空间问题。

核心思想： 当一个动作环境回报较大，则增加其被选择概率；反之，减少该动作被选择概率。
每个动作选择概率由神经网络决定，以参数化神经网络表示策略（记为𝜋𝜃），通过调整参数𝜃，使总体回报期望值最大化。
而最大化问题可转化为求取回报函数关于参数𝜃的梯度，一般使用梯度上升算法，此即为策略梯度算法。
在这里插入图片描述

3.2 强化学习—时序差分学习（Temporal Difference,TD）

与蒙特卡罗学习相似，不需要知晓具体环境模型，可直接从经验中学习。
TD学习结合动态规划与蒙特卡罗方法，可在每执行一步策略后即进行Q函数更新，而不必在完成一个采样轨迹后才做更新。
在这里插入图片描述

3.3 强化学习—深度Q网络（Deep Q-network,DQN）

由Google DeepMind团队于2013年提出，并在2015年进一步完善，是一种基于深度学习的Q-Learning算法。
传统强化学习算法（如动态规划、蒙特卡罗方法、时序差分学习等），其状态均为离散、有限的，并使用查找表存储状态价值或Q函数。
但现实生活中状态多为连续的，即使离散化后状态空间（系统全部可能状态的集合）仍十分庞大，因而产生内存不足、表格搜索耗时过长等问题。
DQN则通过DNN、CNN或RNN等神经网络对价值函数做近似表示，利用经验回放方式替代查找表,令最终结果无限逼近全局最优解，有效解决Q-Learning状态空间有限问题。
在这里插入图片描述

3.4 强化学习—Actor-Critic算法（AC）

又称“演员-评论家”算法，主要由策略网络Actor和评价网络Critic组成。
其中，Actor使用策略梯度等基于策略优化的算法，决定当前状态下采取何种动作；Critic则使用Q-Learning等基于值优化的算法，对Actor所选动作进行评分，进而Actor根据Critic评分改进动作选择概率。
Actor-Critic算法结合策略梯度与Q-Learning算法优点，既可做到单步更新，又可扩展至连续状态空间，提高策略更新效率同时解决高偏差问题。
目前，AC算法已发展出Advantage Actor-Critic（A2C）以及Asynchronous advantage Actor-Critic（A3C）等改进型，进一步提高策略准确性、降低内存需求。
在这里插入图片描述