范数
范数(Norm)是一个表示向量“长度”的函数,为向量空间内的所有向量赋 予非零的正长度或大小。对于一个𝑁 维向量𝒗,一个常见的范数函数为 范数,
其中𝑝 ≥ 0为一个标量的参数.常用的𝑝的取值有1,2,∞等.
ℓ1 范数 为向量的各个元素的绝对值之和.
ℓ2 范数 为向量的各个元素的平方和再开平方.
ℓ2 范数又称为Euclidean 范数或者Frobenius 范数.从几何角度,向量也可 以表示为从原点出发的一个带箭头的有向线段,其ℓ2 范数为线段的长度,也常称 为向量的模.
ℓ∞ 范数 为向量的各个元素的最大绝对值,
无穷范数的理解:当p趋于无穷大时,向量v中最大的元素的会远大于其它其它元素的p次方,即为其它元素的高阶无穷大项,因此范数公式趋近于,于是得到上述公式。
矩阵范数 矩阵的范数有很多种形式,其中常用的ℓ𝑝 范数定义为
后面用到的向量范数也可以从这个定义得出。
向量函数的导数
对于一个向量x={x1, x2, ... xk},有
证明:
,当i=j时,有,当时,有,因此为单位矩阵I
证明:
向量x的2范数为:,因此
证明:
,j=1,2,...k,因此
证明:和上面类似,略。
对于一般的向量函数f(x),x={x1, x2, ... xk},f(x) = {f(x1), f(x2), ... f(xk)}, f(x)的导数为一个对角矩阵
Logistic函数
Logistic 函数是一种常用的 S 型函数,是比利时数学家 Pierre François Verhulst在1844年~1845年研究种群数量的增长模型时提出命名的,最初作为一种生态学模型.
Logistic函数定义为
其中 exp(⋅) 函数表示自然对数,𝑥0 是中心点,𝐿 是最大值,𝐾 是曲线的倾斜度.下图给出了几种不同参数的 Logistic 函数曲线.当 𝑥 趋向于 −∞ 时,logistic(𝑥) 接近于0;当𝑥趋向于+∞时,logistic(𝑥)接近于𝐿。
当参数为(𝑘 = 1, 𝑥0 = 0, 𝐿 = 1)时,Logistic函数称为标准Logistic函数,记为𝜎(𝑥).
标准Logistic函数在机器学习中使用得非常广泛,经常用来将一个实数空间 的数映射到(0, 1)区间. 标准Logistic函数的导数为
𝜎 ′ (𝑥) = 𝜎(𝑥)(1 − 𝜎(𝑥)).
证明:
因此,左边=右边,等式得证。
当输入为𝐾 维向量𝒙 = [𝑥1 , ⋯ , 𝑥𝐾] T 时,其导数为
𝜎 ′ (𝒙) = diag (𝜎(𝒙) ⊙ (1 − 𝜎(𝒙))).
其中⊙表示逐点乘积。
Softmax函数
Softmax函数可以将多个标量映射为一个概率分布.对于K个标量𝑥1 , ⋯ , 𝑥K, Softmax函数定义为
这样,我们可以将𝐾 个标量𝑥1 , ⋯ , 𝑥𝐾 转换为一个分布:𝑧1 , ⋯ , 𝑧𝐾,满足
写成向量形式,有
其中,1𝐾 = [1, ⋯ , 1]𝐾×1 是𝐾 维的全1向量。
Softmax函数的导数为
上述过程用到了两条函数求导法则:
乘法法则:(f(x)g(x))' = f(x)g'(x) + f'(x)g(x)
链式法则:y=g(x), z=f(y),则z'(x) = (f(g(x)))' = g'(x)(f'(y)),其中f'(y)表示把y当成自变量,对y求导