Machine Learning——A Probabilistic Approach学习笔记 第二章 概率(总结版)

本文是《Machine Learning——A Probabilistic Approach》第二章的学习笔记,涵盖概率的基本概念,离散与连续分布,多变量概率,随机变量替换,以及信息论。介绍了二项分布、泊松分布、高斯分布等常见分布,以及熵、互信息等信息论概念。
摘要由CSDN通过智能技术生成

2.1引言

本书采用贝叶斯解释(概率是我们对事件的发生可能的预期)

2.2基本概念

离散随机变量:

  • 概率:p(A)    条件概率:p(A|B)   联合概率:p(A,B)
  • 乘法原理:p(A,B)=p(A|B)p(B)   加法原理:p(A)=\sum p(A,b)=\sum p(A|B=b)p(B=b)
  • 贝叶斯法则:
  • 无条件独立:p(X,Y)=p(X)p(Y)\Rightarrow X\bot Y   条件独立:p((X,Y)|Z)=p(X|Z)p(Y|Z)\Rightarrow X\bot Y|Z

连续随机变量:

  • 累积分布函数,cdf:F(q)=p(X\leq q),性质:单调递增,反函数存在,小于1
  • 概率密度函数,pdf:,性质:非负,可大于1,积分为1

重要数据:

  • 均值:
  • 方差:

2.3常见离散分布

  • 二项分布,多项分布,伯努利分布,多项伯努利分布:
  • 泊松分布:
  • 经验分布:

2.4常见连续分布

  • 高斯(正态分布):
  • 狄拉克delta函数:\delta (x)=\left\{\begin{matrix} \infty &x=0\\ 0 &else \end{matrix}\right.,且使得\int \delta(x)=1
  • 学生t分布:
  • 拉普拉斯分布:
  • 伽马分布:
  • Beta分布:
  • 帕累托分布:

2.5多变量联合概率分布

协方差&相关系数:

  • 协方差:
  • 协方差矩阵:
  • 相关系数:,取值为[-1,1]
  • 相关系数描述的是随机变量X和Y之间的线性相关程度

多元分布的刻画:

  • 多元高斯(正态)分布:
  • 多元学生t分布:
  • 狄利克雷分布

2.6随机变量的变量替换

已知x的分布,求y=f(x)的分布:

  • 离散变量:
  • 连续变量:变量替换公式:
  • 多元变量替换:Jacobi行列式:

中心极限定理:

  • N个独立同分布的随机变量的加和的分布随着N的增大而趋近于正态分布

蒙特卡洛近似:

  • 目的:有时变换y=f(x)会非常复杂,使用变量替换公式是不现实的,因此我们需要一个近似
  • 使用S个样本的取值估计f(X)的期望:
  • 精度估计:

2.8信息论

基础度量:

  • 熵:离散变量:,性质:非负,在均匀分布时取得最大值;在delta分布时取得最小值0
  • 交叉熵:离散变量X,Y:\mathbb{H}(p,q)=-\sum _k p_klogq_k,解释:分布为p的数据使用模型q进行编码时的平均比特数
  • 条件熵:离散变量X,Y:
  • KL散度:离散变量p,q:,性质:非负,不对称,取0当且仅当p=q

互信息:

  • 意义:描述随机变量X,Y的相关程度(可以非线性)
  • 定义:离散变量X,Y:
  • 解释:,表示X的不确定性和在观测到Y后X的不确定性的差值
  • 连续随机变量的互信息:取不同的区间尝试分割,然后取其中算出的最大的互信息,称为最大信息系数法:\mathrm{MIC}={max}_{x,y:xy<B}m(x,y)m(x,y)=\frac{max_{G\in \vartheta (x,y)}\Pi (X(G);Y(G))}{logmin(x,y)}

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值