数据挖掘day12-CS229-Review of Probability Theory

最新推荐文章于 2021-12-18 15:25:08 发布

偲偲粑

最新推荐文章于 2021-12-18 15:25:08 发布

阅读量269

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/weixin_43329319/article/details/97395508

版权

数据挖掘专栏收录该内容

23 篇文章 1 订阅

订阅专栏

没找到中文翻译，只能自己做翻译了（未完待填坑）

概率论是对不确定性的研究。通过这个课程，我们将依靠概率论的概念来推导机器学习算法。本文试图概括适合于CS 229水平的概率论基础知识。概率的数学理论非常复杂，其深层次内容为测量理论的分支。在这些文档中，我们提供了概率的基本处理，但没有解决这些细节问题。

1、概率基本元素

为了定义集合上的概率，我们需要一些基本元素：
• 样本空间 $\Omega$ ：随机实验的所有结果的集合。在这里，每个结果 $\omega \in \Omega$ 可以被认为是实验结束时现实世界状态的完整描述。
•事件集（或事件域） $\digamma$ ：事件域是指一个样本空间 $\Omega$ 中某些子集 $\in \digamma$ 组成的集合类（ $A\subseteq \Omega$ 是实验可能结果的集合）。
•概率公理化定义：函数 $P:\digamma→\mathbb{R}$ ，并且具有一下属性：
非负性：所有 $\in \digamma$ 都有 $P(A)\ge0$
规范性： $P(\Omega)=0$
可列可加性：若 $A_1,A_2,\cdots$ 是不相交事件（即， $A_i \cap A_j=\empty,i \ne j$ ),则有：

$P(\cup_iA_i)=\displaystyle \sum_iP(A_i)$
这三个属性被称为概率的公理。
**示例：**例如抛掷6面骰子。样本空间为 $Ω= \{1,2,3,4,5,6\}$ 。我们可以在此样本空间上定义不同的事件域。例如，最简单的事件域是 $F = \{∅，Ω\}$ 。另一个事件空间是Ω的所有子集的集合。对于第一个事件空间，满足上述要求的唯一概率测度由 $P (\emptyset) = 0 ， P (Ω) = 1$ 给出。对于第二个事件空间，一个有效的概率计算是事件空间中每个集合的概率为 $\frac{i}{6}$ ，其中i是该集合的元素数量; 例如， $P(\{1,2,3,4\})= \frac{4}{6}$ , $P(\{1,2,3\})= \frac{3}{6}$ 。
属性：

$A \subseteq B \Rightarrow P (A) \leq P (B)$ .
$P (A \cap B) \leq m i n (P (A), P (B))$ .
$P (A \cup B) \leq P (A) + P (B)$ .
$\ A) = 1 − P(A)$ .
若 $A_1,A_2,\cdots,A_k$ 是不相交事件，且 $_{i=1}^kA_i = Ω$ ，则：
$\displaystyle \sum_i^kP(A_k) = 1$

1.1、条件概率和独立性

设B是具有非零概率的事件。在给定B条件下，A的条件概率定义为

$\frac{P(A ∩ B)} {P(B)}$

换句话说， $P （ A ∣ B ）$ 是观察事件B发生后事件A的概率。当且仅当 $P (A \cap B) = P (A) P (B)$ 时，两个事件被称为独立事件。（或等效地， $P (A ∣ B) = P (A)$ ）。因此，独立性相当于说B对A的概率没有任何影响。

2、随机变量

考虑一个10次抛硬币的实验，我们想知道出现的头的次数。这里，样本空间Ω的元素是10个长度的头或花序列。例如，我们可能有 $w_0 = \langle H，H，T，H，T，H，H，T，T，T \rangle ∈Ω$ 。然而，在实践中，我们通常不关心获得任何头或花序列的可能性。相反，我们通常关心结果的数值函数，例如在我们的10次投掷中出现的头数，或者最长连续花的数量。在某些技术条件下，这些函数称为随机变量。

更正式地，随机变量X是函数 $X：Ω→\mathbb{R}^2$ 。通常，我们将使用大写字母 $X (ω)$ 或更简单地 $X$ （其中隐含对随机结果ω的依赖性）来表示随机变量。我们将使用小写字母 $x$ 表示随机变量可能采用的值。

**示例：**在上面的实验中，假设 $X (ω)$ 是在投掷序列ω中出现的头数。假设只抛出10次硬币， $X (ω)$ 只能获取有限数量的值，因此它被称为离散随机变量。这里，与随机变量X相对应的集合在某个特定值k上的概率是：

$p(X=k):=P(\{ω:X(ω)=k\})$

**示例：**假设 $X (ω)$ 是一个随机变量，表示放射性粒子衰变所需的时间。在这种情况下， $X (ω)$ 具有无限数量的可能值，因此称为连续随机变量。我们用X表示在两个实常数a和b（其中 $a < b$ ）之间的概率:

$p(a≤ X≤ b):=P(\{ω:a≤ X(ω)≤ b\})$

2.1、累积分布函数

为了指定在处理随机变量时使用的概率度量，通常很容易指定替代函数（CDF，PDF和PMF），从中可以立即控制实验的概率测量。在本节和接下来的两节中，我们依次描述这些类型的函数。

偲偲粑

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘day12-CS229-Review of Probability Theory

没找到中文翻译，只能自己做翻译了概率论是对不确定性的研究。通过这个课程，我们将依靠概率论的概念来推导机器学习算法。本文试图概括适合于CS 229水平的概率论基础知识。概率的数学理论非常复杂，其深层次内容为测量理论的分支。在这些文档中，我们提供了概率的基本处理，但没有解决这些细节问题。1、概率基本元素为了定义集合上的概率，我们需要一些基本元素：• 样本空间Ω\OmegaΩ：随机实验的所有...
复制链接

扫一扫