机器学习数学基础:随机事件与随机变量

↑↑↑关注后"星标"Datawhale每日干货 &每月组队学习,不错过Datawhale干货作者:吴忠强,Datawhale优秀学习者所谓机器学习和深度学...
摘要由CSDN通过智能技术生成

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

 Datawhale干货 

作者:吴忠强,Datawhale优秀学习者

所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。

这次借着在Datawhale组织的概率统计专题学习的机会再重新温习一遍数学基础,非常感谢组织的这次学习机会。这一版块是整理概率统计的相关内容, 具体知识点参考了Datawhale的开源教程概率统计, 这次又是站在了大佬的肩膀上前行, 同时对其中的重点知识进行整理和补充, 然后进行了必要的代码实现。

今天是概率统计基础的第一篇文章, 我们先从随机变量和随机事件开始,之前学习概率统计, 有些变量就迷迷糊糊的, 这次再温习一遍基础概念。首先会从概率统计的基本概念入手, 然后学习概率相关的知识, 接下来是古典概型, 然后就是条件概率和伟大的贝叶斯公式, 最后再来整理随机变量的相关知识。

大纲如下:

  • 随机事件(基本概念, 频率与概率, 古典概型, 条件概率, 全概率和贝叶斯)

  • 随机变量(离散型及分布, 连续型及分布, 多维随机变量及分布, 数字特征)

随机事件

随机事件是概率论中最重要的基础概念之一, 但是我们真的理解随机事件吗? 哈哈, 不一定, 不信?你可以先尝试解释一下什么是随机事件,如果你告诉我说:所谓随机事件, 就是随机的那些事件, 那么恭喜你, 得到了继续往下看的机会。

1. 基本概念

要想解释随机事件, 我们得先从随机现象的概念开始, 现实生活中,一个动作或一件事情,在一定条件下,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种,称这种现象为随机现象。比如明天的天气, 或者是抛硬币的结果等, 这种现象在生活中非常常见, 就不做过多解释了。

既然我们生活中很多现象都是不确定的或者随机的, 那么有没有一些方法去研究和观察这些随机现象呢?如果能从这样的随机现象中找到一些规律, 那么我们是不是可以更好的认识这个世界或者更好的生活呢? 

既然像抛硬币这种事情来说不确定, 那么我们就可以进行一些实验嘛, 多做一些, 说不定就能发现一些规律了呢?  所以我们可以通过随机试验使得随机现象得以实现和观察。 所以这就引出了随机试验的概念, 那么随机试验有没有条件呢? 虽然随机试验是研究随机现象的, 但是肯定不是所有的随机试验都那么好研究, 比如明天的天气, 所以随机试验应该满足三个条件:

  • 可以在相同条件下重复进行(可重复)

  • 结果虽然不确定, 有多种可能, 但是这些可能的结果已知, 就是跑不出这个范围

  • 作一次试验不确定是这个范围里面的哪个结果

就拿抛硬币这个来说, 首先抛硬币我们可以重复进行多次, 并且每次进行我们都知道要么是正, 要么是反,所以可能的结果已知, 但是我们抛掷一次是正是反就不确定, 所以这个试验是满足上面的条件的, 所以抛硬币结果的随机现象我们就可以通过随机试验进行观察。

有了随机现象和随机试验的概念, 我们就可以再引出三个概念, 那就是样本空间, 样本点和随机事件了。

  • 样本空间:随机试验中所有可能结果组成的集合, 比如抛硬币里面的{正, 反}这两种结果就是样本空间,记为

  • 样本点:试验的每一个可能的结果, 比如正或者反,记为

  • 随机事件:样本空间 中满足一定条件的子集, 用大写字母 表示, 随机事件在随机试验中可能出现也可能不出现, 这个子集到底怎么理解?比如抛硬币, 样本空间是{正,反}, 而其子集就是{正}, {反}, 所以抛一枚硬币得到的结果是正或者反都可以作为随机事件, 当然这个例子随机事件可能会和样本点进行混淆, 那就投掷一枚骰子的结果, 我们知道样本空间是{1, 2, 3, 4, 5, 6}, 那么随机事件可以是这里面的子集, 比如出现的数字是偶数的结果{2, 4, 6}。当其中一个样本点出现的时候,我们就说这个随机事件发生了。

最后还有两个概念是必然事件, 这个就是一定发生的事件, 就是包含试验里面的所有样本点, 比如样本空间, 在每次试验中它总是发生。当然有必然就有不可能, 不可能事件是不含任何样本点, 在每次试验中都不会发生, 比如投掷骰子的时候, 空集定义成结果数字大于6, 这个就不会发生了。

2. 频率与概率

上面我们已经知道了概率论里面的一些基础概念, 但是我们上面说学概率统计是为了研究随机现象的某些规律的,那么就需要在基础概念的基础上再往前一步, 去研究一些规律了, 我们知道了对于一个事件, 在一次随机的试验中可能发生, 可能不发生, 但如果我们知道某些事件在一次试验中发生的可能性大小,是不是对我们会更有帮助, 所以我们希望找到一个合适的数来表征事件在一次试验中发生的可能性大小, 这个数就称为概率。

但是在研究概率之前, 我们先介绍一个概念叫频率, 所谓频率, 就是在相同的条件下, 进行了 次试验, 在 次试验中, 事件A发生的次数(频数) 与次数 的比 就是事件A的频率, 记做 。这个很好理解吧, 比如我们抛10次硬币, 事件A是正面朝上, 如果10次里面有6次正面朝上, 那么就说A的频率是0.6。

事件A的频率大,就说明事件A发生就越频繁, 这意味着事件A在一次试验里面发生的可能性就越大, 那你说, 直接将频率表示时间A在一次试验中发生的可能性大小不就完事?emmm,有道理,  大量试验证实, 当重复试验的次数 逐渐增大, 频率 会逐渐稳定性到某个常数, 比如抛硬币, 如果你做很多次试验, 你会发现正面向上的频率会稳定在0.5(不信?实践是检验真理的唯一标准, 哈哈), 那么频率来表征事件发生的可能性大小是合适的。

But, 在实际中, 很多情况,我们是不可能为了得到某个事件发生的可能性大小而去做大量的实验, 然后求得频率, 再说某个事件发生的可能性, 没那个耐心和时间, 像上面那个硬币的实验, 那些实验者可是抛了20000多次, 所以有时候不得不敬佩人家的钻研精神, 大佬之所以是大佬, 人家背后可是下足了功夫的。

那我们应该怎么表示事件发生的可能性大小呢?我们从频率稳定性中得到了启发, 得到了表征事件发生可能性大小的概率的定义。

随机试验 的样本空间 , 对于每个事件 , 定义一个实数 与之对应, 若函数 满足条件:

则称 为事件 的概率。关于概率的性质, 这里就不再写了,直接把文档里面的图截过来了:

根据大数定律, 当 时频率 在一定意义下接近概率 。基于这一事实, 我们就可以将概率 用来表征事件 在一次试验中发生的可能性大小。

2.3 古典概型

将掷骰子游戏进行推广,设随机事件 的样本空间中只有有限个样本点,即 ,其中, 为样本点的总数。每个样本点 出现是等可能的,并且每次试验有且仅有一个样本点发生,则称这类现象为古典概型。若事件 包含个 个样本点,则事件 的概率定义为:

事件

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值