坐标变换、主成分分析、贝叶斯决策、参数估计

我叫两万块

于 2022-10-16 17:20:25 发布

阅读量314

点赞数

本文链接：https://blog.csdn.net/lwk___123/article/details/127245483

版权

我真的会忘（2）

坐标变换
主成分分析
贝叶斯决策
参数估计

坐标变换

已知b1, b2 为新的基向量。A为基变换矩阵。

变换矩阵怎么来的？
对于e1，e2而言，实际上就是b1,b2本身。
变换矩阵 乘上 新的基向量下的坐标 的意义是什么？
是原基向量下的坐标。所以变换矩阵的意义就在于此。

主成分分析

它主要是以“提取出特征的主要成分”这一方式来实现降维的。
如下所示一矩阵。

n行的特征，m列的样本。
$\left[ x_1,x_2,...,x_m \right] =\left[ \begin{matrix}{} x_{11}& x_{12}& \cdots& x_{1m}\\ x_{21}& & & \vdots\\ \vdots& & & \vdots\\ x_{n1}& \cdots& \cdots& x_{nm}\\ \end{matrix} \right]$
对每一个特征进行零均值化。就是把每个数减去该行的均值，得到一个新的矩阵。（这是为了对特征一视同仁）
求协方差矩阵。
$cov\left( X,Y \right) =E\left( \left( X-E\left( X \right) \right) \left( Y-E\left( Y \right) \right) \right)$
由于之前已经经过零均值化处理，所以
$cov\left( X,Y \right) =E\left( XY \right) =\frac{1}{n}\sum_1^n{x_iy_i}$
而协方差矩阵如下，注意是特征与特征的比较，也就是行与行的比较。
$\left[ \begin{matrix} cov\left( x_1,x_1 \right)& cov\left( x_1,x_2 \right)& \cdots& cov\left( x_1,x_n \right)\\ cov\left( x_2,x_1 \right)& & & \vdots\\ \vdots& & & \vdots\\ cov\left( x_n,x_1 \right)& \cdots& \cdots& cov\left( x_n,x_n \right)\\ \end{matrix} \right] =\frac{1}{n}XX^T$
求出协方差矩阵的特征值和特征向量，将特征值从大到小排列，特征向量依次对应（特征向量要标准化）。
怎么特征分解可以看我这篇博客
取前k行组成新的矩阵P。
Y = PX，得到的Y就是新的降维的矩阵。相当于P是一个降维矩阵，是将X投影到低维度上。

解释一下为什么协方差矩阵的特征值越大，越能成为主成分。
1）在信号处理中认为信号具有较大的方差，噪声有较小的方差。如果样本在X上的投影方差较大，在Y上的投影方差较小，那么可认为Y上的投影是由噪声引起的。
2）方差越大，数据越分散，也就意味着信息量越多，信号越强，也可以说熵越大，该特征越有区分度。协方差代表维度x和维度y之间的相关程度，协方差越大，也就意味着噪声越大，信息的冗余程度越高。
因此n维的数据降低到k维，在k维上的每一维的样本方差都很大。

贝叶斯决策

贝叶斯公式
$P\left( B_i|A \right) =\frac{P\left( B_i \right) P\left( A|B_i \right)}{P\left( A \right)}=\frac{P\left( B_i \right) P\left( A|B_i \right)}{\sum_{j=1}^n{P\left( A|B_j \right) P\left( B_j \right)}}$

P（A），P（B）：事件A、B的先验概率。
P（A|B），P（B|A）：事件A，B的后验概率。
P（A|B）/ P(A) ：调整因子。

贝叶斯决策：扔进去一个先验概率P（B），若调整因子大于1，P（B）变大，若小于1，P（B）变小，实际上是利用已知的信息（后验概率）起到对B的一个修正的作用，

最小错误率贝叶斯决策

最小错误率———错误的概率最小———正确的概率最大。
对二类决策问题，假设可以分成w1，w2两类。x表示样本，错误率为e。决策在x样本上的错误率：
$P\left( e|x \right) =\begin{cases} P\left( w_2|x \right) \,\,x\in w_1\\ P\left( w_1|x \right) \,\,x\in w_2\\ \end{cases}$
一个类的错误率等于另一个类的正确率。那其实可以认为：
$\text{若}P\left( w_1|x \right) >P\left( w_2|x \right) \text{则}x\in w_1;\text{否则}x\in w_2$

最小风险贝叶斯决策

最小风险：决策的错误带来的损失最小！
损失：需要把不同决策看成行，真实的状态看成列，创建一个损失决策表（一般专家才能给出），实际上就是定义不同的损失函数。
怎么决策：让损失最小，最小化期望风险。

朴素贝叶斯分类

朴素：各个特征相互独立，满足属性条件独立性假设。
样本x属于yk类的后验概率 $P\left( y_k|x \right) =\frac{P\left( y_k \right) P\left( x|y_k \right)}{P\left( x \right)}$
P（yk）可由训练样本集中该类样本出现的频率来估计
P（x）样本的概率，与类别无关，可以直接算。
P（x|yk）可由yk类内属性为x的样本的比例来估计。
看下面这个式子就可以明白了。训练集会告诉你右边式子的所有的概率。
先把嫁的筛选出来，再求不帅的频率
图片来源
有些概率逼近于0怎么办。
扩大样本容量：增加m个等效样本。得到新的类条件概率：（ni是yk类内样本xi的个数，p为之前的概率）
$P\left( x_i|y_k \right) =\frac{n_i+mp}{n+m}$

参数估计

估计量的评价

无偏性
$E\left( \widetilde{\theta } \right) =\theta$
可以这么理解，题目证明：某样本统计值是总体统计值的无偏估计量。
E套进去。例如，证明样本均值是期望u的无偏估计量。
$E\left( \bar{X} \right) =E\left( \frac{1}{n}\sum_{i=1}^n{E\left( X_i \right)} \right) =\frac{1}{n}\sum_{i=1}^n{\mu}=\mu$
有效性