常见数学符号的直观理解笔记
文章目录
前言:
不少常见的数学符号,我经常不认识,看论文的时候,每次小丑都是我自己…
所以先把这些花里胡哨的公式列出来,方便查找。
a r g m a x ( f ( x ) ) argmax(f(x)) argmax(f(x))
argmax(f(x))是使得 f(x)取得最大值所对应的变量点x(或x的集合),
这个定义也太容易理解了吧…
对于Q-learning系列, a r g m a x a ( Q ( s , a ) ) argmax_a(Q(s, a)) argmaxa(Q(s,a))是指使得Q值最大的那个动作a,整体表达式输出的是动作a。
m a x a Q ( s , a ) max_{a}Q(s, a) maxaQ(s,a)
m a x a Q ( s , a ) max_{a}Q(s, a) maxaQ(s,a)是指对于Q(s, a)这个函数输出的最大值。
对于Q-learning系列,这个Q(s, a)的输出本身意味着动作的选择,所以max下面会有a的下标,但表达式整体仍然是指最大的Q值。
E s ∼ p ( s ) [ f ( s ) ] E_{s\sim p(s)}[f(s)] Es∼p(s)[f(s)] <=> ∑ s ∈ S p ( s ) [ f ( s ) ] \sum_{s \in S} p(s)[f(s)] ∑s∈Sp(s)[f(s)]<=> ∫ f ( s ) p ( s ) d s \int{f(s)p(s)ds} ∫f(s)p(s)ds
期望和求和以及求积分的关系。
左边期望的意思是指,对于f(s)函数求平均,而其中的变量s,服从p(s)的分布。
如果变量s为离散变量,即对f(s)的期望,等价于对每个s求一个平均。
如果变量s为连续变量,即对f(s)的期望,等价于,沿着s的概率密度函数的求积分。
这段描述如果有问题的话,欢迎批评指正,我目前的理解是这样的。