概率统计-基础

概率统计

  • 概率与统计的关系
  • 概率统计与机器学习的关系
  • 概率统计基本概念
    • 随机实验
    • 样本空间
    • 样本点
    • 随机事件
    • 随机变量
    • 分布函数
    • 分布律
    • 概率密度
    • 概率
    • 条件概率
  • 常用的概率公式
    • 全概率
    • 条件概率
    • 贝叶斯
  • 常用的概率分布(期望,方差)
    • 0-1 分布
    • 二项分布
    • 泊松分布
    • 均匀分布
    • 正态分布
    • 指数分布
  • 常用的统计量
    • 集中趋势
    • 离散程度
  • 常用的图形表示
    • 直方图
    • 柱形图
    • 箱线图
    • 饼图
    • 折线图
    • 散点图

 

 

概率与统计的关系

概率 就是已知分布, 求 p 就好了.

统计 就是已知所有的p, 实验或者现实世界观察得到, 估计整体的分布 以及 参数估计 正太分布的参数就是均值和方差.

ps : 通常统计也会假设或者经验成一个已知分布, 那么做的事情就是 参数估计.

 

 

概率统计与机器学习的关系

训练 -> 统计分布的过程

预测 -> 求解概率的过程

 

特征分布

标签分布

 

 

概率统计基本概念

以掷骰子为例

  1. 随机实验

随机实验 : 掷骰子一次(对某种自然现象的观测或实验) E

1次试验 : 1次

n次实验 : 重复n次

 

  1. 样本空间

对于E, 一次掷骰子的所有可能结果 S {1,2,3,4,5,6}

 

  1. 样本点

对于S中的每一个元素

 

  1. 随机事件

随机事件 : 可以是任意指定规则, 定义一个问题 => 随机试验 + 问题定义, 例如 : 随机变量X可以定义为 <3, 或者>3 总之是S的一个子集

基本事件 : 由一个样本点组成的单点集, 共6个基本事件 => 对应样本点

 

ps :

(1) 随机试验和随机事件的区别在于 随机试验只是某一个观测, 没有对问题的定义. 随机事件 实在试验的基础上 明确的定义了问题

(2) 样本空间 对应的是随机事件的结果集合, 样本点对应的是随机事件每次的 一个结果

 

  1. 随机变量

一个样本空间映射到实数域的函数 ->掷骰子, 用X记录得到的点数

随机变量 就是事件的样本空间 通过 经过 X(e) 到 数值的映射 => 本质上把一个实际问题 用数值来表示.

举例 : 掷骰子的结果 {正面是一 ... 正面是六} => {1,2,3,4,5,6}

随机变量就是随机事件的 结果集合, 使用数值来表示

 

  1. 分布函数

概率密度或者分布律的累计函数, 分布函数F(x)在x处的值代表表示X落在 (-∞,x]上的概率 => 实际用的比较少, 通常通过 概率密度和分布律来表达一个分布.

 

  1. 分布律

描述离散型随机变量的概率分布

 

  1. 概率密度

描述连续性随机变量的概率分布

 

  1. 概率

随机变量 取值的概率

 

  1. 条件概率

在某个随机变量条件下 另一个随机变量取值的概率

 

 

常用的概率公式

条件概率

理解 : 在B条件下 发生A的概率, 不就是AB同时发生的概率

 

全概率公式

理解 : 在每个条件下发生A的概率之和

 

贝叶斯公式

理解 : A的条件下发生B的概率 = B的条件下发生A的概率

 

 

常用的概率分布

 

1. 0-1 分布

0-1分布定义

 

伯努利实验

理解 : 掷一次骰子

 

n重伯努利实验

理解 : 掷n次骰子

 

 

2. 二项分布

n重伯努利实验与二项分布

 

二项分布定义

 

以掷骰子为例, 对于二项分布的深入理解 :

实际问题 : 我们想要知道 掷10次硬币, 正面 次数是5的概率, P(X=5) = C(5,10)p5(1-p)10-5 => 就是5次正面, 5次反面的概率 => 我们已经定义好了想要知道的问题

 

概率和统计 : 概率就是 P(X=5). 统计就是 X = 0,1 ... n的概率集合, 整体的一个分布.

二项分布的公式本质上就是 分布律, 描述的是随机事 结果集合 构成的一个分布.

所谓分布 指的就是 随机事件 结果集合 也就是随机变量 的概率分布. => 分布 = 随机事件 + 结果集合 + 概率 => 称作 X 服从什么分布

 

随机试验 就是 掷n次骰子

随机事件 就是 掷n次骰子 + 正面出现次数(正面, 反面次数 是两个事件, 这个问题只关注正面)

随机变量 和 我们想要的answer是息息相关的, 通常我们想要某个概率, 随机变量 对应事件的样本空间 指的 就是 正面次数 的样本空间集合 {0-10} => 随机变量就是随机事件的 结果集合

 

二项分布和 (0-1)分布

 

二项分布举例

 

二项分布概率密度分布图

 

3. 泊松分布

泊松分布定义

 

泊松分布和二项分布

 

近似条件 : 当 n >=20, p<=0.05 十分近似

 

应用场景

 

概率密度分布图

 

为什么有了二项分布, 还要有要有泊松分布?

近似于二项分布, 为了计算简便. 近似条件 : 当 n >=20, p<=0.05 十分近似.

 

4. 均匀分布

均匀分布定义

 

概率密度分布图

 

5. 正态分布

https://zh.wikipedia.org/wiki/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

定义

 

标准正态分布

 

正态分布 -> 标准正态分布

这个过程就是 把X进行标准化, 去除量纲带来的影响

 

概率密度分布

 

应用

正常的思考逻辑 : 95.5%的概率 这个人的身高会在 x1~x2之间

 

为什么要有正态分布?

 

 

常用的统计量

期望, 方差, 协方差

意义 : 期望和方差描述是整体的分布, 而协方差描述的是两个变量之间

 

协方差

意义 : 评估两个变量的相关性(只能评估线性关系)

内积

 

此处还是有点乱?

内积, 协方差, consine, 去均值.

 

1. 集中趋势的描述

定义

 

比较

 

应用

 

2. 离散趋势的描述

引入

方差

 

标准差

 

常用的图形

为什么使用图标

 

1. 直方图

直方图反映分布, 能直观的看出整体的分布

 

 

 

2. 箱线图

箱线图反映分布, 更能看出集中在哪个区域 大部分集中在哪里

 

 

3. 线图

线图体现趋势

 

 

4. 柱形图

柱形图反映一段时间内 数据变化或者各项数据之间的比较

直方图与柱形图

直方图比较一组数据的分布, 柱形图比较不同组别的数据差异

 

5. 饼图

饼图放映百分比

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值