自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 强化学习(Reinforcement Lrarning,RL)04:值迭代与策略迭代算法

算法vk1fvkmaxπrπγPπvkk123...vk1​fvk​maxπ​rπ​γPπ​vk​k123...可以被分成以下几步:Step1: 策略更新πk1sargmaxπ∑aπa∣s∑rpr∣sarγ∑s′ps′∣savks′∀s∈Sπk1​sargmaxπ​a∑​πa∣sr∑​。

2024-07-06 16:38:28 1083

原创 有限差分方法解决一维波动问题:Python实现

有限差分方法是一种数值分析中的方法,主要用于解决微分方程。在连续函数的微分和积分中,我们通常使用微积分的方法。但在实际应用中,很多情况下我们无法得到函数的精确表达式,或者即使得到了,求解微分或积分也非常复杂。这时,我们就可以使用有限差分法。

2024-07-05 12:38:48 859

原创 pytorch实现:PINN 模拟抛射运动(基于时间)

在处于自由落体运动中的抛射体,它会受到重力和阻力的共同作用。对于这个问题,应该掌握一些基本的物理动力学知识,这些将为我们进一步探索 PINN 在模拟此类物理现象中的应用提供有力支撑。

2024-06-30 19:28:03 1142 1

原创 强化学习(Reinfoecement Learning,RL):系列文章索引

强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,它关注的是智能体(Agent)如何在特定的环境中采取行动,通过与环境的交互学习到最优的策略,以最大化某种累积奖励。这一学习框架受到了心理学中行为主义理论的启发,特别关注行为与后果之间的关系。强化学习因其能够在不确定性和复杂动态环境中学习有效策略的能力,在。作者将分两个方向对强化学习进行介绍和学习,分别是。若你也感兴趣或者有疑问,欢迎评论留言或者私信讨论。等领域展现出了巨大潜力。

2024-06-24 19:47:24 317

原创 PINN 实战系列文章索引,基于 Pytorch 实现

物理信息神经网络(Physicis-Informed Neural Network,PINN)是一种创新的计算方法,它融合了深度学习技术和经典的物理学原理,目的是为了更高效、更准确地求解复杂物理问题,特别是偏微分方程(PDEs)。PINN 的核心理念在于将物理系统的已知规律,即物理方程,直接嵌入神经网络的损失函数中,从而引导网络学习的过程不仅依据数据,还严格遵循物理规律。本系列文章将基于 Pytorch 实现,本文只为各文章起一个。若你也感兴趣或者有疑问,欢迎评论留言或者私信讨论。

2024-06-24 19:28:55 340

原创 强化学习(Reinforcement Lrarning,RL)03:贝尔曼方程

评估智能体从某特定状态开始,遵循某一策略进行决策时,所能获得的预期累计奖励的大小。具体来说,状态价值函数定义为智能体处于状态。进行后续决策所能得到的未来奖励的期望值,用。后,所能获得的预期回报的函数,用。通过状态价值,定义最优策略,用。为下一时间步的状态个数,将。行动时,该状态的价值函数。若有不足之处,欢迎批评指正!得出贝尔曼方程的数学表达,为当前时间步的状态个数,式贝尔曼方程,可以得出。

2024-06-22 17:52:36 1128

原创 pytorch实现:PINN 寻求一维非线性薛定谔方程数值解

非线性薛定谔方程(Nonlinear Schrödinger Equation, NLS)是对经典薛定谔方程的一种推广,用于描述那些包含显著非线性效应的系统,尤其是在波动力学领域,如非线性光学、Bose-Einstein凝聚体、水波、等离子体物理学以及某些类型的流体力学系统中。

2024-06-21 21:28:19 1940 3

原创 强化学习(Reinforcement Lrarning,RL)02:马尔科夫决策过程

在一个马尔科夫过程中,系统的下一步行为仅与现在的位置(状态)有关,而与它是如何到达当前位置的所有过去信息无关。换句话说,给定当前状态,未来状态的概率分布仅依赖于当前状态,而不依赖于到达当前状态的任何历史状态。其中,动作的主体称作智能体(Agent),智能体可以在网格世界中上、下、左、右移动。指一个回合(Episode)游戏中,智能体观测到的所有状态、动作、奖励的序列,用。由于折扣率的次数随着。,环境反馈给智能体的一个数值,也叫即时奖励,用小写字母。根据观测到的状态做出决策,从而控制智能体的动作,用。

2024-06-21 17:51:09 911

原创 强化学习(Reinforcement Lrarning,RL)01:概率论基础

强化学习(Reinforcement Lrarning,RL)与概率论(Probability Theory)之间存在着密切联系,本文将对RL中会用到的相关概念进行介绍。,用于描述一个实验或者随机过程的结果。例如抛掷一枚骰子是随机过程,得到的点数就是一个离散随机变量记为。如果一个随机变量的采样值不对另一个随机变量造成影响,那么称两个随机变量是独立的。随机变量和其他普通变量一样,可以进行数学运算,如两个随机变量。的可能性,记作 $p(X = x,Y = y) $ 或。次随机过程,得到的值是一个。

2024-06-20 22:49:56 583

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除