自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 马尔可夫决策过程

因此,得到了右边的MDP。类似地,从下图(称为Q值备份图)可以看出,在状态s时,遵循策略π,采取动作a后,,(s,a)的动作价值函数表示为在该状态下采取动作a后的即时奖励,加上带折扣求和,求和项为:该状态s下,采取动作a后转移到所有可能后续状态s′的转移概率和所有可能后续状态s′的状态价值函数相乘后,累加求和即。其中折扣因子的大小体现了未来奖励对当前时刻价值的权重,换句话说,当其接近于0,比较小的时候,代表智能体趋向于眼前的利益,而当其趋近于1时,代表未来奖励所占的比重越大,智能体偏向于未来长远的考虑。

2023-12-24 11:00:01 833 1

原创 一篇文章搞懂精确一维搜索方法 - 三点等间隔搜索法

注意:在所用的单变量函数优化搜索法中,都要假定,在搜索区间内的目标函数必须是凸函数或凹函数,因为只有这样,才能通过比较函数在两个不同点的值来预测极值点所在的区间,从而舍弃那个不包含极值点的子区间。等间隔搜索法是指:将不定区间进行N等分,得到,加上首尾端点共N+1个点,然后通过比较找到对应函数值最小的那个点,记为,则子区间仍是包含极值点的单谷区间,可能会有人问,为什么这个区间就一定包含极值点呢?答案就是文章开头所强调的————目标函数是凸函数或凹函数的缘故,相关概念可自行百度。

2023-10-16 20:34:45 665 1

原创 一篇文章搞懂正定矩阵

根据百度百科,正定矩阵分为广义和狭义两个定义。(1) 广义定义:设M是n阶方阵,如果对任何非零向量z,都有,其中zT 表示z的转置,就称M为正定矩阵(2)狭义定义:一个n阶的实对称矩阵M是正定的的条件是当且仅当对于所有的非零实系数向量z,都有zTMz> 0。其中zT表示z的专制。(3)对称正定矩阵:,若,,如果对任何非零向量X,都有,则称A为对称正定矩阵。

2023-09-08 16:31:03 1135 1

原创 牛顿法入门

牛顿迭代法(Newton's method)又称为牛顿-拉夫逊(拉弗森)方法(Newton-Raphson method),它是牛顿在17世纪提出的一种在实数域和复数域上近似求解方程的方法。主要是因为多数方程不存在求根公式,因此求精确根非常困难,甚至不可解,从而寻找方程的近似根就显得特别重要。方法使用函数f(x)的泰勒级数的前面几项来寻找方程的根。牛顿迭代法是求方程根的重要方法之一,其最大优点是在方程单根附近具有平方收敛,而且该法还可以用来求方程的、复根,此时,但是可通过一些方法变成。

2023-08-17 21:16:09 291 1

Optimal_Multi-Agent_Persistent_Monitoring_of_the_.pdf

Optimal_Multi-Agent_Persistent_Monitoring_of_the_.pdf

2023-12-27

随机混合系统 -Christos G. Cassandras

随机混合系统 -由Christos G. Cassandras所·写

2023-11-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除