![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度强化学习
文章平均质量分 73
深度强化学习
丰。。
某top数据科学专业博士研究生,发表多篇论文,CCFA类2篇,sci2区一篇,目前担任sci2区文章审稿人,均为深度学习领域,第一作者,五次国际级获奖经历,国家级大创四项,多次省级校级获奖经历,负责多项科研项目。希望大佬们多多提携,小弟定投桃报李。
展开
-
知识图谱学习笔记02-经典的知识图谱项目介绍
Link Life Data的知识库包括了大量的生命科学实体和关系,如基因、蛋白质、代谢物、药物、疾病、生物通路等,它使用了多种本体论和语义技术来对这些实体和关系进行建模和描述。它是一个开放的、联合的数据集,包含了从维基百科中抽取出的关于各种实体、概念、事件和属性的信息,如人物、地点、组织、艺术品、科技产品、历史事件、音乐作品等等。它通过从中文维基百科中抽取信息,构建了一个包含约40万个实体和160万个关系的知识库,覆盖了广泛的领域,如人物、地点、组织、文化、历史、科技等等。原创 2023-05-03 13:34:40 · 1266 阅读 · 0 评论 -
评价公式-均方误差
我们希望得到所有样本误差平方的平均数,即均方误差。假设有n个样本,真实值分别为y₁, y₂, ……, yₙ,预测值分别为ŷ₁, ŷ₂, ……因此,均方误差可以用样本真实值的平方和、样本真实值与预测值的乘积之和、样本预测值的平方和来计算。原创 2023-03-22 00:15:00 · 830 阅读 · 0 评论 -
组会汇报(本科)-在复杂楼层背景下,一种基于深度强化学习的目的楼层预约调度算法的多智能体电梯群控系统的研究
在复杂楼层背景下,一种基于深度强化学习的目的楼层预约调度算法的多智能体电梯群控系统的研究原创 2022-07-14 15:20:44 · 2009 阅读 · 0 评论 -
协同多智能体学习的价值分解网络的原理与代码复现
多智能体协同的价值函数问题原创 2022-07-24 20:23:22 · 1090 阅读 · 1 评论 -
DQN算法的原理与复现
先来解释下Q-learning简单来说就是瞬时奖励+记忆经验奖励。瞬时奖励:做了一个动作就能获得的奖励经验奖励:按照训练时的经验,上一系列动作发生之后,接下来怎么做才能获得更大的奖励,换句话就是说根据复盘经验去研究如何更好地补刀,从而形成一系列的动作(连招)DQN自然就是加入深度神经网络进行预测,我们先来看看Q-learning是如何运行的1收集数据(即游戏记录)2令目标等于以下公式(获得价值最高的选择):3目标函数(获得最小的误差)整体流程伽马值(就是那个很像r的)用于减少下一步原创 2021-05-28 22:45:07 · 4758 阅读 · 2 评论 -
A3C算法
优势函数的解读与分析整体计算流程简单来说就是在同一个网络中嫁接两个全连接层借此减少计算负担整体架构.实际上用多线程去做就行损失函数整理原创 2021-05-29 20:08:26 · 1863 阅读 · 0 评论 -
强化学习.
强化学习的通俗理解定义强化学习,是在与环境的互动当中,为了达成一个目标而进行的学习过程第一层主体三个要素agent-与环境互动的主体environment-环境goal-目标游戏(环境)的玩法玩家的目标第二层主体强化学习的过程主要是围绕这三个要素展开state 状态action 行动reward 奖励比如玩家和环境会处于某种状态state,对于策略类游戏来说,其状态自然就是战场信息在一个状态之下,玩家需要做出某种行动,即action,根据当前的战场信息,玩家要决定军队的部署原创 2021-05-24 20:50:35 · 1127 阅读 · 0 评论 -
马尔可夫决策过程-强化学习学习笔记(二)
概念引入强化学习的通俗理解马尔可夫的通俗介绍简介马尔可夫决策过程 (Markov Decision Processes, MDPs)是对强化学习问题的数学描述.马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策(sequential decision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报 。MDP的得名来自于俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков),以纪念其为马尔可夫链所做的研原创 2022-01-19 15:51:07 · 3605 阅读 · 0 评论 -
强化学习学习笔记-动态规划
定义动态规划(Dynamic Programming,DP)是运筹学的一个分支,是求解决策过程最优化的过程。20世纪50年代初,美国数学家贝尔曼(R.Bellman)等人在研究多阶段决策过程的优化问题时,提出了著名的最优化原理,从而创立了动态规划。动态规划的应用极其广泛,包括工程技术、经济、工业生产、军事以及自动化控制等领域,并在背包问题、生产经营问题、资金管理问题、资源分配问题、最短路径问题和复杂系统可靠性问题等中取得了显著的效果。适用范围1最优子结构满足最优性原理最优的解可以被分解成子问题原创 2022-04-13 11:47:23 · 381 阅读 · 0 评论 -
强化学习学习笔记-时间差分算法
概述时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗方法(Monte Carlo Methods)的优点,从而对状态值(state value)和策略(optimal policy)进行预测概念引入自举法我们的项目并不总是有充足的数据。通常,我们只有一个样本数据集可供使用,由于缺乏资源我们无法执行重复实验(例如A/B测试)。幸运的是,我们有重采样的方法来充分利用我们所拥有的数据。自举法(Bootstrapping)是一种重采样技术。理想情原创 2022-04-20 10:59:52 · 529 阅读 · 0 评论 -
深度学习学习笔记---------RIAL算法/增强智能体间学习
多智能体间的通信问题原创 2022-07-12 21:23:26 · 509 阅读 · 0 评论 -
动态规划-强化学习学习笔记(三)
概念引入强化学习的通俗理解马尔可夫决策过程简介动态规划(Dynamic Programming,DP)是运筹学的一个分支,是求解决策过程最优化的过程。20世纪50年代初,美国数学家贝尔曼(R.Bellman)等人在研究多阶段决策过程的优化问题时,提出了著名的最优化原理,从而创立了动态规划。动态规划的应用极其广泛,包括工程技术、经济、工业生产、军事以及自动化控制等领域,并在背包问题、生产经营问题、资金管理问题、资源分配问题、最短路径问题和复杂系统可靠性问题等中取得了显著的效果 。动态规划的适用范围原创 2022-01-20 15:38:10 · 2155 阅读 · 0 评论