![](https://img-blog.csdnimg.cn/20201013161214221.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习/深度学习/强化学习
文章平均质量分 92
机器学习/深度学习/强化学习
燕双嘤
程序辅导,毕业设计,课程作业,比赛代打等,17724838277
展开
-
多智能体强化学习:基本概念,通信方式,IPPO,MADDPG
1,基本概念1.1,简介单个RL智能体通过与外界的交互来学习知识,具体过程是根据当前环境的状态,智能体通过策略给出的动作来对环境进行响应,相应地,智能体会得到一个奖励值以反馈动作的好坏程度。RL最重要的目标就是学习到能够使奖励最大化的策略,并且与监督学习的不同是这种奖励在很多情况下存在延迟。大多数RL的成功应用都是在单智能体场景下,无须建模和预测环境中的其他智能体。但是有很多重要的应用场景涉及多个智能体之间的交互,问题会变得很复杂。比如,多个机器人协同、多玩家游戏等,这些都是多智能体的场景。另原创 2022-04-14 19:43:20 · 7207 阅读 · 19 评论 -
强化学习(实践):REINFORCE,AC,TRPPO,PPO
1,REINFORCE在车杆环境中进行 REINFORCE 算法的实验:import gymimport torchimport torch.nn.functional as Fimport numpy as npimport matplotlib.pyplot as pltfrom tqdm import tqdmimport rl_utils首先定义策略网络PolicyNet,其输入是某个状态,输出则是该状态下的动作概率分布,这里采用在离散动作空间上的softmax()函..原创 2022-04-21 20:29:49 · 4149 阅读 · 7 评论 -
强化学习(实践):DQN,Double DQN,Dueling DQN,格子环境
1,DQN算法1.1,CarPole环境以车杆(CartPole)环境为例,它的状态值就是连续的,动作值是离散的。在车杆环境中,有一辆小车,智能体的任务是通过左右移动保持车上的杆竖直,若杆的倾斜度数过大,或者车子离初始位置左右的偏离程度过大,或者坚持时间到达 200 帧,则游戏结束。智能体的状态是一个维数为 4 的向量,每一维都是连续的,其动作是离散的,动作空间大小为 2,详情参见表 7-1 和表 7-2。在游戏中每坚持一帧,智能体能获得分数为 1 的奖励,坚持时间越长,则最后的分数越高,坚持 2原创 2022-04-21 15:19:29 · 4083 阅读 · 7 评论 -
强化学习(实践):多臂老虎机,动态规划,时序差分
1,多臂老虎机1.1,形式化描述在多臂老虎机(Multi-Armed Bandit,MAB)问题中,有一个拥有根拉杆的老虎机,每一个拉杆都对应一个关于奖励的概率分布 。我们每次拉下其中一根拉杆,就可以获得一个从该拉杆对应的奖励概率分布中获得一个奖励 。我们的目标是: 在各个拉杆奖励的概率分布未知的情况下,从头开始尝试,并在操作次拉杆后,获得尽可能多的累积奖励。由于奖励的分布是未知的,我们就需要在“探索拉杆的获奖概率”和“根据经验选择获奖最多的拉杆”中进行权衡。于是,要采用怎样的操作策略,才...原创 2022-04-20 07:49:56 · 1785 阅读 · 4 评论 -
强化学习:稀疏奖励(Reward Shaping,Curiosity,Curriculum Learning)
在做 Q-learning 的时候,会有一些随机性,让它去采取一些过去没有采取过的 action,那你要随机到说,它把螺丝起子捡起来,再把螺丝栓进去,然后就会得到 reward 1,这件事情是永远不可能发生的。那也许树叶飘动这件事情,是很难被预测的,对 智能体来说它在某一个 state 什么都不做,看着树叶飘动,然后,发现这个树叶飘动是没有办法预测的,接下来它就会一直站在那边,看树叶飘动。这个想法里面是有一个问题的,这个问题是某一些 state它很难被预测并不代表它就是好的,它就应该要去被尝试的。.....原创 2018-09-10 13:33:56 · 3856 阅读 · 0 评论 -
强化学习:确定性策略梯度(DDPG)
1,确定性策略梯度1.1,基本概念随机性策略梯度算法被广泛应用于解决大型动作空间或者连续动作空间的强化学习问题。其基本思想是将策略表示成以为参数的策略函数。基于采样数据,通过调整参数使得最终的累计回报最大。即:通过一个概率分布函数,来表示每一步的最优策略,在每一步根据该概率分布进行行为采样,获得当前的最佳行为取值;生成行为过程,本质上是一个随机过程;最后学习到的策略也是一个随机策略。使用确定性策略的主要原因是随机策略梯度方法有以下缺陷:即使通过随机策略梯度学习到了随机策略,......原创 2022-04-07 20:35:47 · 12553 阅读 · 14 评论 -
强化学习:随机策略梯度,AC家族(AC,A2C,A3C)
1,随机策略梯度1.1,简介离散动作和连续动作:(1)要输出离散动作的话,我们就是加一层 softmax 层来确保说所有的输出是动作概率,而且所有的动作概率加和为 1。(2)要输出连续动作的话,一般可以在输出层这里加一层 tanh。tanh 的图像的像右边这样子,它的作用就是把输出限制到 [-1,1] 之间。拿到这个输出后,就可以根据实际动作的范围再做一下缩放,然后再输出给环境。 比如神经网络输出一个浮点数是 2.8,然后经过 tanh 之后,它就可以被限制在 [-1,1] 之间原创 2022-03-29 19:40:55 · 6811 阅读 · 6 评论 -
强化学习:值函数逼近(线性,DQN,DDQN,Dueling DQN)
1,线性逼近1.1,基本原理到目前为止,一直假定强化学习任务是在有限状态上进行的,这时的值函数其实是一个表格。对于状态值函数,其索引是状态;对于行为值函数,其索引是状态行为对。值函数迭代更新的过程实际上就是对这张表进行迭代更新,获取某一状态或行为价值的时候通常需要一个查表操作。因此,前面的强化学习算法称为表格型强化学习。若状态空间的维数很大,如围棋(个状态空间),此时精确获取各种和几乎不可能的,因为既没有足够的内存也没有足够的计算能力,这时候需要找到近似的函数,利用函数逼近的方...原创 2022-03-23 19:23:31 · 6699 阅读 · 0 评论 -
强化学习:蒙特卡罗,时序差分,多步时序差分
1,蒙特卡罗1.1,基本原理动态规划是基于模型的强化学习方法,但在实际情况下,环境的状态转移概率及回报往往很难得知,此种情况下,动态规划就不再使用了。这时候可考虑采用无模型方法通过采样的方式替代策略评估,蒙特卡罗方法就是基于这个思想。蒙特卡罗方法也称为统计模拟方法(或称统计实验法),是一种基于概率与统计的数值计算方法。该计算方法的主要核心是通过对建立的数学模型进行大量随机试验,利用概率论求得原始问题的近似解,与它对应的是确定性算法。例如:计算图中蝴蝶的面积,可以通过随机撒豆子,统计在蝴原创 2022-03-16 19:00:11 · 1404 阅读 · 1 评论 -
强化学习:基本概念,马尔可夫,贝尔曼方程,动态规划
1,强化学习1.1,基本概念强化学习起源于动物心理学的相关原理,模仿人类和动物学习的试错机制,是一种通过与环境交互,学习状态到行为的映射关系,以获得最大积累期望回报的方法。强化学习包含环境,动作和奖励三部分,其本质是 agent 通过与环境的交互,使得其作出的action所得到的决策得到的总的奖励达到最大,或者说是期望最大。DL/ML中的loss function目的是使预测值和真实值之间的差距最小,而RL中的loss function是是奖励和的期望最大。在机器学习范畴内,根据反馈的不同,学原创 2022-03-13 17:41:41 · 3620 阅读 · 4 评论 -
PyTorch:RNN,TensorBoard,部署PyTorch,数据增强
1,循环神经网络(RNN)1.1,基本概述大脑区别于机器的一个最大的特征就是有记忆,并且能够根据自己的记忆对未知的事务进行推导,思想拥有持久性的。由于传统的神经网络没有设计记忆结构,因此在处理序列数据上无所适从(即便经过特殊的处理),这不仅导致工作量变大,预测的结果也会收到很大的影响。循环神经网络(RNN)针对BP神经网络的缺点,增加了信息跨时传递的结构。传统的神经网络模型面对许多问题显得无能为力,因为同层节点之间无连接,网络传播也是顺序的。而循环神经网络对序列化数据有很强的的模型拟合能力,因为它原创 2022-03-07 19:09:07 · 1655 阅读 · 0 评论 -
PyTorch:数据加载,数学原理,猫鱼分类,CNN,预训练,迁移学习
1,数据加载PyTorch开发了与数据交互的标准约定,所以能一致地处理数据,而不论处理图像、文本还是音频。与数据交互的两个主要约定是数据集(dataset)和数据加载器(dataloader)。数据集是一个Python类,使我们能获得提供给神经网络的数据。数据加载器则从数据集向网络提供数据。PyTorch通过torch.utils.data对一般常用的数据加载进行了封装,可以很容易地实现多线程数据预读和批量加载。 并且torchvision已经预先实现了常用图像数据集,包括前面使用过的CIFAR-原创 2022-03-05 19:33:29 · 1349 阅读 · 1 评论 -
PyTorch:环境搭建,张量概念,梯度计算,CIFAR-10分类,MINIS数字识别
1,PyTorch安装1.1,不需切换版本前往PyTorch官网,找到对应自己显卡版本的PyTorch安装命令。PyTorch只对CUDA版本有要求,对于cudnn没有要求,甚至不需要安装。查看方式如下:验证:import torchprint(torch.__version__)========================1.8.11.2,切换CUDA版本前往NVIDA官网(CUDA Toolkit Archive | NVIDIA Develo.原创 2021-12-31 22:35:01 · 1507 阅读 · 3 评论 -
机器学习:BP神经网络,CNN卷积神经网络,GAN生成对抗网络
1,基础知识1.1,概述机器学习:概念_燕双嘤-CSDN博客1,机器学习概述1.1,机器学习概念机器学习即Machine Learning,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。目的是让计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断完善自身的性能。简单来讲,机器学习就是人们通过提供大量的相关数据来训练机器。DataAnalysis:基本概念,环境介绍,环境搭建,大数据问题_燕双嘤-CSDN博客1,概述1.1,数据的性质所谓数据就是描述事原创 2021-12-15 08:17:50 · 5205 阅读 · 0 评论 -
机器学习:集成学习
1,概述1.1,集成学习概述集成学习:通常把正确率比较高的分类算法称为强分类器,把正确率比较低的分类算法称为弱分类器。构建一个强分类器是最理想的情况,但显示中往往很难,相反,构建弱分类器是比较容易的。那么如何把弱分类器提升为一个强分类器就是很有意义的问题。“三个臭皮匠顶个诸葛亮”。集成学习就是利用了这样的思想,通过把多分类器组合在一起的方式,构建出一个强分类器;这些被组合的分类器被称为基分类器。事实上,随机森林就属于集成学习的范畴。通常,集成学习具有更强的泛化能力,大量弱分类器的存在降低了分类原创 2020-04-12 20:00:59 · 1285 阅读 · 0 评论 -
机器学习:贝叶斯、KNN、决策树
1,朴素贝叶斯1.1,背景知识机器学习:概率论_燕双嘤-CSDN博客1,随机事件和概率事件的关系与运算:子事件:,若发生,则发生。相等事件:,即,且。和事件:或,与中至少有一个发生。差事件:,发生但不发生。积事件:或 ,与同时发生。互斥事件(互不相容):。互逆事件(对立事件):。运算律:交换律:。结合律:。分配律:。德摩根律:。完全事件组:两两互斥,且和事件为必然事件,即。概率:事件发生的可能性大小的度量,其严格定义如下:概率 为定义在事件集合上的满足下面3个...https://blog.csd原创 2020-04-14 12:02:30 · 2914 阅读 · 0 评论 -
机器学习:聚类分析
1,聚类简介1.1,无监督学习监督学习使用标记数据对 学习函数:。但是,如果我们没有标签呢?这类没有标签的学习方式被称为无监督学习。无监督学习:如果训练样本全部无标签,则是无监督学习。例如聚类算法,就是根据样本间的相似性对样本集进行聚类试图使类内差距最小化,类间差距最大化。主要用途:自动组织数据。 理解某些数据中的隐藏结构。 在低维空间中表示高维数据。1.2,数据聚类将物理或抽象对象的集合分成由类似的对象组成的多个类或簇的过程被称为聚类。数据聚类是一个无监督的学习...原创 2021-11-28 10:54:21 · 8022 阅读 · 2 评论 -
机器学习:多分类
1,多分类形式化1.1,分类问题给定训练样本集合 ,其中 独立同分布,。多分类问题的目标是基于数据 ,从假说集合 中选择一个假说 ,以使得期望误差:最小。对于二分类问题,我们可以以零为界限进行分类,大于零则划分为正样本,小于零则划分为负样本。对于多分类问题,二分类分类方法则无法进行判断,因此我们定义评分函数进行判断。在多类设置中,根据评分函数定义假设:。与点 关联的标签是导致最大分数 的标签,该分数定义了以下映射: 到 :其中,其中每个都是一种类别,通过遍...原创 2021-11-17 23:16:21 · 9491 阅读 · 0 评论 -
机器学习:梯度下降
1,概述1.1,梯度下降法假定给定函数:,求解该函数的极小值时,k的取值是多少?通常做法:对求导,然后令导数=0,求解 k 值即为所求:1.2,迭代与梯度下降求解求导解法在复杂实际问题中很难计算。迭代法通过从一个初始估计出发寻找一系列近似解来解决优化问题。其基本形式如下:其中被称为学习效率。假设初始化,为了通过迭代让趋近最优解2,要满足两个条件:要能使向最优解逼近。 当达到最优解时,要等于0。当达到最优解的时候,要等于...原创 2021-11-14 10:55:06 · 7488 阅读 · 1 评论 -
机器学习:Rademacher复杂度
1,记号样例集:独立同分布样本, 仅考虑二分类问题。泛化误差和经验误差:设为从到的一个映射。泛化误差:分类器的期望误差,模型在新样本集(测试集)上的误差。含义:在测试集(可以是整个集合)中任取一个则的概率或期望(因为当值取1或0时,期望=概率),经验误差(经验误差期望):分类器在给定样例集上的平均误差,模型在训练集上的误差。其中表示满足则输出1,否则输出0。含义:训练集 上所有的数据数/训练集样本数,不能写为概率的原因是,给定...原创 2021-11-11 07:45:36 · 3307 阅读 · 3 评论 -
机器学习:支持向量机(SVM)
1,概述1.1,概念支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。SV原创 2021-11-06 19:09:23 · 170690 阅读 · 47 评论 -
机器学习:感知机算法(PLA)
1,概述1.1,定义感知机(Perceptron):二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1; 感知机对应于输入空间中将实例划分为正负两类的分离超平面,属于判别模型; 感知机学习旨在求出将训练数据进行现行划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。 感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式;感知机的缺点:我们在不知道数据的情况下(是否线性可分)PLA就不会停下来,这个时候原创 2021-11-07 16:52:31 · 3504 阅读 · 0 评论 -
机器学习:关联与回归
1,Apriori算法1.1,关联关联规则:关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买,那么在相同的交易ID下,商品B也被客户挑选的机会就被发现了。【例子】有没有发生过这样的事:你出去买东西,结果却买了比你计划的多得多的东西?这是一种被称为冲动购买的现象,大型零售商利用机器学习和Apriori算法,让我们倾向于购买更多的商品原创 2020-04-13 12:38:19 · 1580 阅读 · 0 评论 -
机器学习:特征降维
1,概述1.1,维数灾难维数灾难:通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中,通常指的是随着特征数量的增多,计算量会变得很大,如特征达到上亿维的话,在进行计算的时候是算不出来原创 2020-04-12 21:38:33 · 1507 阅读 · 0 评论 -
机器学习:基本概念
1,机器学习概述1.1,机器学习概念机器学习即Machine Learning,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。目的是让计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断完善自身的性能。简单来讲,机器学习就是人们通过提供大量的相关数据来训练机器。DataAnalysis:基本概念,环境介绍,环境搭建,大数据问题_燕双嘤-CSDN博客1,概述1.1,数据的性质所谓数据就是描述事物的符号,是对客观事物的性质、状态和相互关系等进行记载的原创 2021-12-14 00:11:41 · 6320 阅读 · 0 评论 -
机器学习:准确率(A),精确率(P)、召回率(R)、评价指标(F)及ROC曲线。
1,准确率(Accuracy)准确率(A)是对预测结果和原结果来说的,表示预测结果中有多少样本预测是正确的。而准确率的局限性:当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。就是你预测的准确度:为了解决准确率局限性,可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平均)作为模型评估的指标。2,精确率(Precision)精确率(P值)是针对我们预...原创 2020-04-20 10:40:51 · 10077 阅读 · 2 评论 -
机器学习:概率论
1,随机事件和概率事件的关系与运算:子事件:,若发生,则发生。 相等事件:,即,且。 和事件:或,与中至少有一个发生。 差事件:,发生但不发生。 积事件:或 ,与同时发生。 互斥事件(互不相容):。 互逆事件(对立事件):。运算律:交换律:。 结合律:。 分配律:。德摩根律:。完全事件组:两两互斥,且和事件为必然事件,即。概率:事件发生的可能性大小的度量,其严格定义如下:概率 为定义在事件集合上的满足下面3个...原创 2022-01-03 16:41:54 · 603 阅读 · 0 评论 -
机器学习:线性代数
1,行列式1.1,行列式计算:对角线法则: 特殊行列式计算 范德蒙行列式:行列式按行展开:余子式:在阶行列式中,把元素 所在的第 行和第 列划去, 剩下的 个元素按原来的排法构成的 阶行列式叫做 的余子式,记为。 代数余子式:记 为元素 的代数余子式 。性质:第行各元素的余子式,代数余子式与第行元素的取值无关。 行列式按行(列)展开法则:行列式等于它的任意一行(列)的各元素与其对应的代数余子式乘积之和,即: 先选取存在最多的行(列)...原创 2022-01-02 08:58:07 · 1222 阅读 · 0 评论 -
机器学习:高等代数
1,导数定义导数和微分的概念: 2,左右导数函数在处左、右导数分别定义为:左导数: 右导数:3,函数的可导与连续函数在处可微在处可导。 若函数在点处可导,则在点处连续,反之不成立。即连续函数不一定可导。 存在4,平面曲线的切线和法线切线方程: 法线方程:5,四则运算设函数,在点处可导,则: 6,基本导数与微分表(常数),则: (为实数),则: ,则:,特例...原创 2022-01-01 20:06:04 · 724 阅读 · 0 评论