应用数学与机器学习基础（二）_两个随机变量x和y,他们的概率分布可以表示成两个因子的乘积形式-CSDN博客

本文链接：https://blog.csdn.net/qq_16608563/article/details/82685632

应用数学与机器学习基础（二）

概率与信息论

概率论是用于表示不确定性声明的数学框架。在人工智能领域，概率论主要有两种用途：首先，概率法则告诉我们AI系统如何推理，据此我们设计一些算法来计算由概率论导出的表达式；
其次，可以用概率和统计从理论上分析我们提出的AI系统的行为。

1.为什么要使用概率？

几乎所有活动都需要一些在不确定性存在的情况下进行推理的能力。
不确定性有3中可能的来源：
1）被建模系统内在的随机性 ,例如大多数量子力学的解释，都将亚原子粒子的动力学描述为概率的。
2）不完全观测
3）不完全建模
我们用概率表示一种信任度，概率直接与事件发生的频率相联系，被称为频率派概率，如抛硬币正面朝上的概率；涉及确定性水平的，被称为贝叶斯概率。比如一个人患流行性感冒的可能性。

2 .随机变量

随机变量时可以随机的取不同值的变量，可以是离散的或连续的。
一个随机变量只是对它可能状态的描述，它必须伴随着一个概率分布来指定每个状态的可能性。

3.概率分布

概率分布是用来描述随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是随机的。
离散型随机变量对应的是概率质量函数
连续型随机变量对应的是概率密度函数

4.边缘概率

如果知道了一组变量的联合概率分布，当想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。
例如，假设有离散型随机变量x和y,并且我们知道P(X,Y)，可以依据下面的求和法则来计算P(X):
这里写图片描述
对于连续型变量，需要用积分代替求和
这里写图片描述

5.条件概率

某个事件在给定其他事件发生时出现的概率，这种概率称为条件概率。我们给定X=x,Y=y发生的条件概率记作：P(Y=y|X=x) ,计算可通过下面的公式
P(Y=y|X=x) = P(Y=y,X=x)P(X=x)P(Y=y,X=x)P(X=x)
6.条件概率的链式法则

任何多维的随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
这里写图片描述
这个规则被称为概率的链式法则。

7.独立性和条件独立性

**两个随机变量x和y，如果他们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含x，另一个只包含y，我们就称这两个随机变量时相互独立的。
p(X=x,Y=y)=p(X=x)p(Y=y)
如果关于x和y的条件概率分布对于z的每一个值都可以写成乘积的形式，那么这两个随机变量x和y在给定的随机变量z时是条件独立的。
p(X=x,Y=y|Z=z)=p(X=x|Z=z)p(Y=y|Z=z)

8.期望、方差和协方差

函数f(x)关于某分布P(X)的期望或者期望值是指，当x由P产生，f作用于x时，f(x)的平均值。
对于离散型随机变量，这可以通过求和得到：
E[f(x)] = ∑xP(x)f(x)∑xP(x)f(x)
对于连续型随机变量，可以通过求积分得到：这里写图片描述
方差：衡量的是当我们对x依据它的概率分布进行采样时，随机变量x的函数值会呈现多大差异。
协方差：在某种意义上给出了2个变量线性相关性的强度以及这些变量的尺度
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

10 .信息论
信息论是应用数学的一个分支，主要研究的是对一个信号包含信息的多少进行量化。
信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能发生的事件发生，能提供更多的信息。
香浓熵：对整个概率分布中的不确定性总量进行量化。
如果对于同一个随机变量x有两个单独的概率分布P(X)和Q(X),可以使用KL散度来衡量这两个分布的差异。