机器学习1:统计基础之概率论

概率论基本概念简介

样本空间 

将随机实验 E 的一切可能基本结果组成的集合称为 E 的样本空间,记为 S。样本空间的元素,即 E 的每一个可能的结果,称为样本点。样本空间又叫基本事件空间 

例:程序员用户的学历 S={‘研究生或以上’,‘本科’,‘大专’,‘高中’,‘中专’,‘初中及以下’},A={‘研 究生或以上’,‘本科’,‘大专’} 


事件 

事件 A 是样本空间的子集,可分为四种类型:

空事件: 样本空间的空子集; 

原子事件: 仅包含一个元素的样本空间; 

混合事件: 包含多个元素的样本空间; 

样本空间本身也是一个事件. 

集合 

所谓的一个集合,就是将数个对象归类而分成为一个或数个形态各异的大小整体。集合运算有以下集中:

补集确定了全集U时,对于U的某个子集A,一般称U-A为A(对于U)的补集余集,通常记为A'{\displaystyle {\bar {A}}}\bar{A}

交集AB交集,写作A ∩ B,是既属于A的、又属于B的所有元素组成的集合。

并集两个集合可以相"加"。A和B的并集是将A和B的元素放到一起构成的新集合。A∪B称为A和B的并集。

互斥A ∩ B  =  \varnothing ,则AB称作不相交。又叫互斥。

概率论定义 

概率用来描述一件事的不确定性。假设 A 是投硬币的一个结果(比如正面朝上),如果重复投硬币很多次,直到 A 出现的机会逼近一个极限 p。那么可以说出现 A 的概率是 p 对于事件 A 和 B,联合概率 Pr(AB)表示事件 A 和 B 同时发生的概率。 


概率定律 

事件的概率: P(A)   满足: P(A)   >=  0 ;P(S) = 1;对于一连串的互斥事件:


条件概率 

发生事件 A 的情况下,发生 B 的概率称作条件概率 P(B|A).。


独立性 

事件发生和其它事件无关。 如果 P(B|A)=P(B), 我们称 B 和 A 统计独立,当且仅当: 


如果 A 和 B 统计独立,那么 B 与 A 也统计独立。

总概率 


贝叶斯理论 


P(B) : B 的先验概率,非条件概率,或者边际概率 

P(A|B): 给定 B 条件下的 A 的条件概率,也被称作“似然” 

P(A): A 的边际概率,也作为 B 的后验概率的归一化常量 

P(B|A):B 的后验概率 


 随机变量,期望,方差

相关概念: 

观测值: 其中一个结果成为观测值 

数据: 多个观测值集合为数据 

总体: 所有的结果称为总体 

有两种类型的随机变量 

离散变量: 值数目可数 对于离散型随机变量,我们关心每个特定数值出现的概率 eg.客户的婚姻情况 

连续变量: 数值在一定范围内 对于连续性变量,某一个特定值出现的概率为 0,我们只关心区间的概率 Eg.客户的投资金额 

概率分布

随机变量的分布就是它所有可能的输出以及它们的概率集合 

概率密度函数 

随机变量的概率密度函数描述该随机变量在某个取值发生的可能性 离散变量:P(X=x)=p(x) 

连续变量:


累积分布函数 

x 处的累积分布函数是负无穷到 x 点的概率密度函数的累加和 

期望

期望是指所有可能值的加权和。其权重对于离散值而言就是该值出现的概率,而对于连续值而言就是 其密度函数。 

离散情况: 


连续情况: 


方差 

用来描述该随机变量值和平均值的离散程度 

离散情况:


连续情况: 



常用概率分布 

离散分布:伯努利分布(二项分布) 


连续分布 

正态分布是最常用的一种连续分布。密度函数的特点是:关于均值 μ 对称,并在 μ 处取最大值, 在正(负)无穷远处取值为 0,图像是一条位于 x 轴上方的钟形曲线。期望值 μ 决定了分布的位置, 标准差 σ 决定了分布的幅度。当 μ=0,σ^2 =1 时,称为标准正态分布,记为 N(0,1)。 


统计量估计和中心极限定理 

从一个数据集(样本)估计它的分布情况 

统计直方图:直观地显示了数据的分布 

描述性指标: 

衡量据中趋势 

期望值的估计:

最大值 /最小值:2500 万用户的最大/最小借款金额

中值:按照借款金额排序,最中间的值

众数::出现次数最多的借款金额 

衡量变化性 

范围:最大最小的借款金额之差 

方差的估计:

两个重要定理 

大数定理:大数定理描述的是一组独立同分布随机变量的均值的极限。在这些随机变量个数趋于无穷时,其均值 依概率收敛于这些随机变量的数学期望 

指明样本均值的收敛趋势 

中心极限定理 设随机变量 X1,X2,......Xn 相互独立,服从同一分布,且具有数学期望和方差


则随机变量的均值渐进地服从正态分布,并且期望和方差分别为


指明样本均值的分布与样本量的关系 



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值