机器学习笔记之基础数学知识（一）

最新推荐文章于 2022-01-16 16:00:48 发布

alwaysRememberrr

最新推荐文章于 2022-01-16 16:00:48 发布

阅读量291

点赞数

分类专栏：机器学习基础笔记文章标签：机器学习

本文链接：https://blog.csdn.net/u014046022/article/details/78822788

版权

机器学习基础笔记专栏收录该内容

17 篇文章 3 订阅

订阅专栏

协方差

定义：

C o v （ X ， Y ） = E ((X - E (X) (Y - E (Y))) = E (X Y) - 2 E (Y) E (X) + E (X) E (Y) = E (X Y) - E (X) E (Y)

$\begin{align} Cov（X，Y） &= E ((X - E(X)(Y - E(Y)) ) \\ & =E(XY) - 2E(Y)E(X) + E(X)E(Y)\\ &=E(XY) - E(X)E(Y) \end{align}$
从直观上来看，协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值；如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的，那么二者之间的协方差就是0，因为两个独立的随机变量满足

E[XY]=E[X]E[Y] $E[XY]=E[X]E[Y]$ 。
但是，反过来并不成立。即如果X与Y的协方差为0，二者并不一定是统计独立的。
协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性，是一个衡量线性独立的无量纲的数。
协方差为0的两个随机变量称为是不相关的。

协方差矩阵

对于n个随机向量 $(x_1,x_2,\cdots,x_n)$ 任意两个元素 $x_i$ 和 $x_j$ 都可以得到一个协方差，从而形成 $n * n$ 的矩阵，协方差矩阵是对称阵，且对称阵的不同特征值对应的特征向量正交。

C i j = E ((x i - E (x i) (x j - E (x j)))

$\begin{align} C_{ij} = E (( x_i - E (x_i)(x_j - E(x_j))) \end{align}$

C = ⎛ ⎝ ⎜ ⎜ c 11 ⋮ c n 1 c 12 ⋮ c n 2 \dots ⋱ \dots c 1 n ⋮ c n n ⎞ ⎠ ⎟ ⎟

$C = \begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{pmatrix}$

矩

对于随机变量 $X,X$ 的 $k$ 阶原点矩为 $E(x^k)$ ,1阶的原点矩是期望。 $X$ 的 $k$ 阶中心矩为 $E((X - E(X))^k)$ ,2阶中心矩是方差。

随机变量的矩和样本的矩有什么关系呢？

1.样本是独立同分布
2.可以通过样本 $x_1,x_2,\cdots,x_n$ 方便的计算样本的k阶矩
3.如果我们假设样本的k阶矩等于总体的k阶矩，可估计出总体的参数

矩估计

设总体的期望为 $\mu$ ,方差为 $\sigma^2$ （ $\mu$ 和 $\sigma$ ）未知，则有原点矩的表达式

E (X) E (X 2) = μ = V a r (X) + (E (X)) 2 = σ 2 + μ 2

$\begin{align} E(X) &= \mu \\ E(X^2) &= Var(X) + (E(X))^2 = \sigma^2 + \mu^2 \end{align}$
根据该总体的一组样本求的原点矩：

A 1 A 2 = 1 n \sum i = 1 n x i = 1 n \sum i = 1 n x i 2

$\begin{align} A_1 &= \frac{1}{n}\sum_{i=1}^{n} x_i \\ A_2 & = \frac{1}{n}\sum_{i=1}^{n} {x_i}^2 \end{align}$

跟据各自阶的中心矩相等令 $A_1 = E(X) ,A_2 = E(X^2)$ 得：

μ^σ^2 = x ¯ = 1 n \sum i = 1 n x i = 1 n \sum i = 1 n (x i - x ¯) 2

$\begin{align} \hat \mu & = \overline x = \frac{1}{n}\sum_{i=1}^{n} x_i \\ \hat \sigma^2 & = \frac{1}{n}\sum_{i=1}^{n} {(x_i - \overline x)}^2 \end{align}$
于是得到了总体的

μ^ $\hat \mu$ 和

σ^2 $\hat \sigma^2$ 的估计值。