数学公式推导笔记

最新推荐文章于 2021-12-10 22:37:09 发布

置顶法相

最新推荐文章于 2021-12-10 22:37:09 发布

阅读量803

点赞数

文章标签： markdown 机器学习数学公式

本文链接：https://blog.csdn.net/weixin_38569817/article/details/110629491

版权

因在研究过程中经常需要记录公式推导，但经常遇到手头没有纸笔的情况。个人比较懒，到现在才开始试着利用markdown来记录推导过程。
参考了博文：《markdown公式编辑语法》
在这里插入图片描述

Chebyshev切比雪夫多项式

1、推导前用到的小知识
任意 $n\ge1$ 的整数，有 $1+C_n^2+C_n^4+...=2^{n-1}$ .
证明：二项式展开 $1+x)^n=1+C_n^1x+C_n^2x^2+...C_n^nx^n$
另x=1，x=-1，将展开式相加即可
$2^n=1+C_n^1+C_n^2+...C_n^n$
$0=1-C_n^1+C_n^2+...C_n^n$

2、一个关于 $cos\theta$ 展开式的思考
复习：
$sin(\alpha+\beta)=sin\alpha cos\beta+cos\alpha sin\beta$
$sin(\alpha-\beta)=sin\alpha cos\beta-cos\alpha sin\beta$
$cos(\alpha+\beta)=cos\alpha cos\beta-sin\alpha sin\beta$
$cos(\alpha-\beta)=cos\alpha cos\beta+sin\alpha sin\beta$
观察如下式子
$cos\theta$
$cos2\theta=cos(\theta+\theta)=cos\theta cos\theta-sin\theta sin\theta=2cos^2\theta-1$
$cos3\theta=cos\theta cos2\theta-sin\theta sin2\theta=cos\theta cos2\theta+cos\theta cos2\theta-cos(-\theta)=4cos^3\theta-3cos\theta$
$cos4\theta=2cos^22\theta-1=8cos^4\theta-8cos^2\theta+1$
由此我们猜测：
$cosn\theta=g(cos\theta)$ ，其中g(x)是n的多项式，g的首项系数是： $2^{n-1}$
证明：
$z=cos\theta+isin\theta$
$z^n=cosn\theta+isinn\theta$
是不是很眼熟，其实就是欧拉公式
实部运算后的结果：
$cosn\theta=g(cos\theta)$
3、切比雪夫多项式的表达式
$cosn\theta=g_n(cos\theta)$ 换元，令 $cos\theta=x$ ，
$g_n(x)=cos(narccosx)$
这种表达式要写出Chebyshev多项式的通项公式是困难的。
我们考虑递推公式，
$g_{n+1}(cos\theta)=cos(n\theta+\theta)=cosn\theta cos\theta-sinn\theta sin\theta$
因为 $sinn\theta sin\theta$ 比较难处理,
$g_{n-1}(cos\theta)=cos(n\theta-\theta)=cos\theta cons\theta+sinn\theta sin\theta$
两式相加：
$g_{n+1}(cosn\theta)+g_{n-1}(cosn\theta)=2cosn\theta cos\theta=2g_n(cos\theta)cos\theta$
得出：
$g_{n+1}(x)+g_{n-1}(x)=2xg_n(x)$
=>>
$g_{n+1}(x)=2xg_n(x)-g_{n-1}(x), x\in[-1,1],n\ge1$
通常写成：
$T_{n+1}(x)=2xT_n(x)-T_{n-1}(x)$
回看：
$cos0\theta=1$
$cos1\theta$
$cos2\theta=2cos^2\theta-1$
$cos3\theta=4cos^3\theta-3cos\theta$
$cos4\theta=8cos^4\theta-8cos^2\theta+1$
作为对比：
$T_0=1$
$T_1=x$
$T_2=2x^2-1$
$T_3=4x^3-3x$
$T_4=8x^4-8x^2+1$

互信息、信息熵、相似熵

考虑一个离散的随机变量x，们要找的信息量函数 $I (x)$ 该为概率函数 $p (x)$ 的单调函数,且满足如下条件：
1.假设有两个独立不相关的事件x和y，则有两件事情同时发生后获得的信息量等于每一件事情发生的单独信息量，即
$I (x, y) = I (x) + I (y)$
2.两个独立不相关事件同时发生的概率，等于分别发生的概率的乘积:
$p (x, y) = p (x) p (y)$
根据上述关系我们很容易看到 $I (x)$ 和 $p (x)$ 有对数关系,因此我们有：
$I (x) = - l o g p (x)$
其中负号是为了保证信息量为正数或零。最后，正式引入熵的概念，熵为关于分布 $p (x)$ 上信息量 $I (x)$ 的期望。
$H(X)=-\sum_xp(x)logp(x)=-\sum_i^np(x_i)logp(x_i)$
$H (X)$ 表示随机变量不确定性的度量

psi和IV可以用一个通用表达式(相似熵)表示：
$\sum_{i=1}^n(p(x_i)-q(x_i))log \frac{p(x_i)}{q(x_i)}$

IV也就是WOE的加权和，
我们可以从从贝叶斯角度理解WOE,
引自风控模型—WOE与IV指标的深入理解应用

$\begin{cases} p(Y=Good|X_i)= \frac{p(X_i|Y=Good)p(Y=Good)}{P(X_i)} \\[2ex] p(Y=Bad|X_i)= \frac{p(X_i|Y=Bad)p(Y=Bad)}{P(X_i)} \end{cases} (1)$
$=>\frac{p(Y=Good|X_i)}{p(Y=Bad|X_i)}= \frac{p(X_i|Y=Good)p(Y=Good)}{p(X_i|Y=Bad)p(Y=Bad)}$
$ln(\frac{p(Y=Good|X_i)}{p(Y=Bad|X_i)})=ln(\frac{p(X_i|Y=Good)}{p(X_i|Y=Bad)})+ln(\frac{p(Y=Good)}{p(Y=Bad)})$
$=>ln(\frac{Good}{Bad}) =WOE+ln(\frac{p(Y=Good_T)}{p(Y=Bad_T)})$
$=>WOE=ln(\frac{Good}{Bad})-ln(\frac{Good_T}{Bad_T})=ln(\frac{\frac{Good}{Good_T}}{\frac{Bad}{Bad_T}})$
$ln(\frac{p(Y=Good|X_i)}{p(Y=Bad|X_i)})$ 表示后验项， $ln(\frac{p(X_i|Y=Good)}{p(X_i|Y=Bad)})$ 表示根据观测数据更新信息，即WOE； $ln(\frac{p(Y=Good)}{p(Y=Bad)})$ 表示先验项。
如收集到的数据与先验知识差距不大，我们就认为这个数据中的证据价值不大，反之则认为带来的信息却多。因为，WOE用以衡量对先验知识修正的增量，这就是WOE被取名为证据权重的原因。

评分卡和逻辑回归关系推导：
逻辑回归中 $y=\frac{1}{1+e^{-z}}$
$=>e^z=\frac{y}{1-y}$
$=>z=ln(\frac{y}{1-y})=ln(\frac{good}{bad})=ln(odds)$
$= > l n (o d d s) = w * W O E (x) + b, x 为自变量$
可以看到WOE和ln(目标)成线性关系，odds在风控中叫好坏比，通常概念可以叫几率。y为预测为1的概率，odds越大，预测为1的概率越大。

概率转评分推导,我们希望评分是线性趋势：
$\begin{cases} score = a+bln(odds) \\[2ex] score+20 = a+bln(2*odds) \end{cases}$
上式怎么来的？我们希望2倍的odds可以对应20分，得到 $b=\frac{20}{ln2}=28.8539$
再设odds=20时，score定为600分，解方程得到a=513.5614

常用损失函数

对数损失

$L_{log}=-log P(Y|X)=-log \prod_{i}P(y_i|x_i)$

多元交叉熵公式

$\hat {y}_j=softmax(z_j)=\frac{e^{z_j}}{\sum _{k=1}^Ke^{z_k}}$
$L_{cross-entropy}=\sum y log{\hat y_j}$
对数损失函数和交叉熵损失函数应该是等价的！！！
在这里插入图片描述
1.交叉熵函数与最大似然函数的联系和区别？

区别：交叉熵函数使用来描述模型预测值和真实值的差距大小，越大代表越不相近；似然函数的本质就是衡量在某个参数下，整体的估计和真实的情况一样的概率，越大代表越相近。

联系：交叉熵函数可以由最大似然函数在伯努利分布的条件下推导出来，或者说最小化交叉熵函数的本质就是对数似然函数的最大化。

推导见

https://zhuanlan.zhihu.com/p/58883095
设随机变量X满足伯努利分布，
$P (x = 1) = p, P (x = 0) = 1 - p$ ,
则X的概率密度函数：
$P(X)=p^X(1-p)^{1-X}$
因为我们只有一组采样数据D，我们可以统计得到X和1-X的值，但是p的概率是未知的，接下来我们就用极大似然估计的方法来估计这个p值。
对于采样数据D，其对数似然函数为
$logP(D)=log\prod_{i=1}^{N}P(D_i)=\sum_ilogp(D_i) =\sum_i(D_ilogp+(1-D_i)log(1-p))$
可以看到上式和交叉熵函数的形式几乎相同，极大化似然估计就是要求这个式子的最大值。而由于上面的函数的值总小于0，所以一般在前面加一个负号，得到交叉熵函数
$loss=-\sum_i(D_ilogp+(1-D_i)log(1-p))$
这个式子揭示了交叉熵函数与极大似然估计的联系，最小化交叉熵函数的本质就是对数似然函数最大化。

矩阵分解

$Av=\lambda v$

矩阵分解：
$A=Q\sum Q^{-1}$ ,
其中，Q是矩阵A的特征向量组成的矩阵， $\sum$ 是一个对角阵，对角线上的元素就是特征值。

SVD分解：
$A=U\sum V^T$
奇异值分解能适用于任何矩阵的一种分解方法，其中A是一个mn的矩阵，U是mm的方阵，U里面的正交向量被称为左奇异向量， $\sum$ 是一个m*n的矩阵， $\sum$ 除了对角线其他元素都是0，对角线上的元素称为奇异值， $V^T$ 是v的转置矩阵，是一个 $n * n$ 的矩阵，里面的正交向量被称为右奇异向量。

我们用矩阵A的转置乘以A，得到一个方阵，就可以用方阵的特征分解，得到特征值和特征向量满足下面的等式：
$(A^TA)v_i=\lambda_iv_i$
$(AA^T)u_i=\lambda_iu_i$ ,
推导：
$A=U\sum V^T$ ， $A^T=V\sum ^TU^T$ ，
$A^TA=V\sum ^TU^TU\sum V^T=V\sum^2V^T$ ，
其中 $U^TU=I,\sum^T\sum=\sum^2$ ,
可以看出：
$A^TA$ 的特征向量组成的矩阵就是我们SVD中的V矩阵，同理可证明 $AA^T$ 特征向量组成的矩阵就是SVD中的U矩阵。
且奇异值和特征值得关系如下：
$\sigma^i=\sqrt {\lambda^i}$