常见数学符号的直观理解笔记

常见数学符号的直观理解笔记

前言:

不少常见的数学符号,我经常不认识,看论文的时候,每次小丑都是我自己…
所以先把这些花里胡哨的公式列出来,方便查找。

a r g m a x ( f ( x ) ) argmax(f(x)) argmax(f(x))

argmax(f(x))是使得 f(x)取得最大值所对应的变量点x(或x的集合),

这个定义也太容易理解了吧…

对于Q-learning系列, a r g m a x a ( Q ( s , a ) ) argmax_a(Q(s, a)) argmaxa(Q(s,a))是指使得Q值最大的那个动作a,整体表达式输出的是动作a。

m a x a Q ( s , a ) max_{a}Q(s, a) maxaQ(s,a)

m a x a Q ( s , a ) max_{a}Q(s, a) maxaQ(s,a)是指对于Q(s, a)这个函数输出的最大值。

对于Q-learning系列,这个Q(s, a)的输出本身意味着动作的选择,所以max下面会有a的下标,但表达式整体仍然是指最大的Q值。

E s ∼ p ( s ) [ f ( s ) ] E_{s\sim p(s)}[f(s)] Esp(s)[f(s)] <=> ∑ s ∈ S p ( s ) [ f ( s ) ] \sum_{s \in S} p(s)[f(s)] sSp(s)[f(s)]<=> ∫ f ( s ) p ( s ) d s \int{f(s)p(s)ds} f(s)p(s)ds

期望和求和以及求积分的关系。
左边期望的意思是指,对于f(s)函数求平均,而其中的变量s,服从p(s)的分布。
如果变量s为离散变量,即对f(s)的期望,等价于对每个s求一个平均。
如果变量s为连续变量,即对f(s)的期望,等价于,沿着s的概率密度函数的求积分。
这段描述如果有问题的话,欢迎批评指正,我目前的理解是这样的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hehedadaq

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值