坐标变换、主成分分析、贝叶斯决策、参数估计

坐标变换

已知b1, b2 为新的基向量。A为基变换矩阵。

  • 变换矩阵怎么来的?
    对于e1,e2而言,实际上就是b1,b2本身。
  • 变换矩阵 乘上 新的基向量下的坐标 的意义是什么?
    是原基向量下的坐标。所以变换矩阵的意义就在于此。
    在这里插入图片描述

主成分分析

它主要是以“提取出特征的主要成分”这一方式来实现降维的。
如下所示一矩阵。

  1. n行的特征,m列的样本。
    [ x 1 , x 2 , . . . , x m ] = [ x 11 x 12 ⋯ x 1 m x 21 ⋮ ⋮ ⋮ x n 1 ⋯ ⋯ x n m ] \left[ x_1,x_2,...,x_m \right] =\left[ \begin{matrix}{} x_{11}& x_{12}& \cdots& x_{1m}\\ x_{21}& & & \vdots\\ \vdots& & & \vdots\\ x_{n1}& \cdots& \cdots& x_{nm}\\ \end{matrix} \right] [x1,x2,...,xm]= x11x21xn1x12x1mxnm

  2. 对每一个特征进行零均值化。就是把每个数减去该行的均值,得到一个新的矩阵。(这是为了对特征一视同仁)

  3. 求协方差矩阵。
    c o v ( X , Y ) = E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) cov\left( X,Y \right) =E\left( \left( X-E\left( X \right) \right) \left( Y-E\left( Y \right) \right) \right) cov(X,Y)=E((XE(X))(YE(Y)))
    由于之前已经经过零均值化处理,所以
    c o v ( X , Y ) = E ( X Y ) = 1 n ∑ 1 n x i y i cov\left( X,Y \right) =E\left( XY \right) =\frac{1}{n}\sum_1^n{x_iy_i} cov(X,Y)=E(XY)=n11nxiyi
    而协方差矩阵如下,注意是特征与特征的比较,也就是行与行的比较。
    [ c o v ( x 1 , x 1 ) c o v ( x 1 , x 2 ) ⋯ c o v ( x 1 , x n ) c o v ( x 2 , x 1 ) ⋮ ⋮ ⋮ c o v ( x n , x 1 ) ⋯ ⋯ c o v ( x n , x n ) ] = 1 n X X T \left[ \begin{matrix} cov\left( x_1,x_1 \right)& cov\left( x_1,x_2 \right)& \cdots& cov\left( x_1,x_n \right)\\ cov\left( x_2,x_1 \right)& & & \vdots\\ \vdots& & & \vdots\\ cov\left( x_n,x_1 \right)& \cdots& \cdots& cov\left( x_n,x_n \right)\\ \end{matrix} \right] =\frac{1}{n}XX^T cov(x1,x1)cov(x2,x1)cov(xn,x1)cov(x1,x2)cov(x1,xn)cov(xn,xn) =n1XXT

  4. 求出协方差矩阵的特征值和特征向量,将特征值从大到小排列,特征向量依次对应(特征向量要标准化)。
    怎么特征分解可以看我这篇博客

  5. 取前k行组成新的矩阵P。

  6. Y = PX,得到的Y就是新的降维的矩阵。相当于P是一个降维矩阵,是将X投影到低维度上。

解释一下为什么协方差矩阵的特征值越大,越能成为主成分。
1)在信号处理中认为信号具有较大的方差,噪声有较小的方差。如果样本在X上的投影方差较大,在Y上的投影方差较小,那么可认为Y上的投影是由噪声引起的。
2)方差越大,数据越分散,也就意味着信息量越多,信号越强,也可以说熵越大,该特征越有区分度。协方差代表维度x和维度y之间的相关程度,协方差越大,也就意味着噪声越大,信息的冗余程度越高。
因此n维的数据降低到k维,在k维上的每一维的样本方差都很大。

贝叶斯决策

  1. 贝叶斯公式
    P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) P\left( B_i|A \right) =\frac{P\left( B_i \right) P\left( A|B_i \right)}{P\left( A \right)}=\frac{P\left( B_i \right) P\left( A|B_i \right)}{\sum_{j=1}^n{P\left( A|B_j \right) P\left( B_j \right)}} P(BiA)=P(A)P(Bi)P(ABi)=j=1nP(ABj)P(Bj)P(Bi)P(ABi)
  • P(A),P(B):事件A、B的先验概率。
  • P(A|B),P(B|A):事件A,B的后验概率。
  • P(A|B)/ P(A) :调整因子。
  1. 贝叶斯决策:扔进去一个先验概率P(B),若调整因子大于1,P(B)变大,若小于1,P(B)变小,实际上是利用已知的信息(后验概率)起到对B的一个修正的作用,

最小错误率贝叶斯决策

  1. 最小错误率———错误的概率最小———正确的概率最大。
  2. 对二类决策问题,假设可以分成w1,w2两类。x表示样本,错误率为e。决策在x样本上的错误率:
    P ( e ∣ x ) = { P ( w 2 ∣ x )    x ∈ w 1 P ( w 1 ∣ x )    x ∈ w 2 P\left( e|x \right) =\begin{cases} P\left( w_2|x \right) \,\,x\in w_1\\ P\left( w_1|x \right) \,\,x\in w_2\\ \end{cases} P(ex)={P(w2x)xw1P(w1x)xw2
  3. 一个类的错误率等于另一个类的正确率。那其实可以认为:
    若 P ( w 1 ∣ x ) > P ( w 2 ∣ x ) 则 x ∈ w 1 ; 否则 x ∈ w 2 \text{若}P\left( w_1|x \right) >P\left( w_2|x \right) \text{则}x\in w_1;\text{否则}x\in w_2 P(w1x)>P(w2x)xw1;否则xw2

最小风险贝叶斯决策

  1. 最小风险:决策的错误带来的损失最小!
  2. 损失:需要把不同决策看成行,真实的状态看成列,创建一个损失决策表(一般专家才能给出),实际上就是定义不同的损失函数。
  3. 怎么决策:让损失最小,最小化期望风险。

朴素贝叶斯分类

  1. 朴素:各个特征相互独立,满足属性条件独立性假设。

  2. 样本x属于yk类的后验概率 P ( y k ∣ x ) = P ( y k ) P ( x ∣ y k ) P ( x ) P\left( y_k|x \right) =\frac{P\left( y_k \right) P\left( x|y_k \right)}{P\left( x \right)} P(ykx)=P(x)P(yk)P(xyk)

  3. P(yk)可由训练样本集中该类样本出现的频率来估计

  4. P(x)样本的概率,与类别无关,可以直接算。

  5. P(x|yk)可由yk类内属性为x的样本的比例来估计。

  6. 看下面这个式子就可以明白了。训练集会告诉你右边式子的所有的概率。

  7. 先把嫁的筛选出来,再求不帅的频率在这里插入图片描述
    图片来源

  8. 有些概率逼近于0怎么办。
    扩大样本容量:增加m个等效样本。得到新的类条件概率:(ni是yk类内样本xi的个数,p为之前的概率)
    P ( x i ∣ y k ) = n i + m p n + m P\left( x_i|y_k \right) =\frac{n_i+mp}{n+m} P(xiyk)=n+mni+mp

参数估计

估计量的评价

  1. 无偏性
    E ( θ ~ ) = θ E\left( \widetilde{\theta } \right) =\theta E(θ )=θ
    可以这么理解,题目证明:某样本统计值是总体统计值的无偏估计量。
    E套进去。例如,证明样本均值是期望u的无偏估计量。
    E ( X ˉ ) = E ( 1 n ∑ i = 1 n E ( X i ) ) = 1 n ∑ i = 1 n μ = μ E\left( \bar{X} \right) =E\left( \frac{1}{n}\sum_{i=1}^n{E\left( X_i \right)} \right) =\frac{1}{n}\sum_{i=1}^n{\mu}=\mu E(Xˉ)=E(n1i=1nE(Xi))=n1i=1nμ=μ

  2. 有效性
    请添加图片描述

点估计

矩估计

样本K阶原点矩收敛于期望
1 n ∑ i = 1 n X i k = E ( X k ) \frac{1}{n}\sum_{i=1}^n{X_{i}^{k}=E\left( X^k \right)} n1i=1nXik=E(Xk)

最大似然估计

在这里插入图片描述
对L()取对数,然后求导,然后导数等于0,因为要求最大值。以此估计。

最小二乘估计

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值