数理统计与概率论及Python实现——概率论中基本概念


公众号后台回复“图书“,了解更多号主新书内容

作者:Keivan Chan

来源:97年陈伯伯

其实从中学就开始学习统计学了,画直方图,求平均值,找中位数等;大学也集中学过概率论和数理统计;

到了工作中,统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛;

这次主要写连载,一是主要为了巩固数理统计的知识,二也是尝试用简单易懂系统的文字向感兴趣的朋友介绍相关内容;

导读:

基础中的基础

随机事件试验与样本空间:

频率与概率

基础中的基础

    在所有可观察的现象中,可以从大的方面分为两类——必然现象随机现象

    物理学中各种定律描述的基本上都是必然现象,比如物体会因为重力而从高处下落,某一时刻地球位于太阳系中的位置。这些现象的发生都是确定无疑的,如果我们完全认识了它们的内在规律,那么在发生之前就是可以完全准确的预测出结果。

    但是还有一类现象是不确定的。它的不确定性表现在,事先无法准确的预测其结果。唯一可以获得这类现象的结果的办法是等到它们发生之后。最典型的例子就是抛硬币。抛一枚均匀的硬币之前,已知结果只有正面和反面两种,但是无法知道到底会是哪一面。比如说,跟喜欢的人表白;明天是否会下雨等。可以看到,这些现象单次发生的时候,是毫无规律可循的。

    

    也正是有了这两种现象,才让这个世界既可以被认识,又不至于完全可以被预测。

    但当我们在相同的条件下,大量重复(如果可以的话)做某件不确定的事,然后统计实验结果,就有可能发现某种规律。还是拿抛硬币来举例,每次抛硬币都不知道会得到正面还是反面,但如果有耐心将一枚均匀的硬币抛20,000次(已经有多位著名的统计学家这么做过了),然后统计一下正反面分别出现了多少次,就可以发现它们差不多都是10,000次,也就是差不多各占50%。上面的抛硬币的例子中,随机现象(抛硬币)在相同的条件下,大量重复试验中呈现的规律性就叫做统计规律性

    

    《概率论与数量统计》就是研究随机现象的统计规律的一门学科。

    

    概率论研究的是随机现象的模型(即概率分布);

    数理统计是研究随机现象的数据收集和处理;即包括数据的收集、整理、分析和建模,从而对随机现象的某些规律进行预测或决策。

    怎么学习概率论与数量统计:

  1. 学思想:如何看待和处理随机规律性;

  2. 学方法:建立统计模型;

  3. 学应用:模型的实际应用,也可以自己收集、寻找各种实例;

  4. 学软件:掌握统计软件的使用和结果分析。

随机事件试验与样本空间:

随机事件:在一定条件下,并不总是出现相同结果的现象成为随机现象,三个特点:

  • 可以在相同条件下重复进行;

  • 事先知道所有可能出现的结果;

  • 进行试验前不知道哪个试验结果会发生。

随机实验:对在相同条件下可以重复的随机现象的观测、记录、实验称为随机实验;例如常出现的掷骰子,摸球,射击,抛硬币等。

样本空间:随机现象的一切可能基本结果组成的集合称为样本空间,一般即为S(大写的S);S中的元素e称为样本点

           将样本点的个数为有限个或可列个的情况归为一类,称为离散样本空间;

           将样本点的个数为不可列个的情况归为一类,称为连续样本空间;

随机事件:随机现象的某些样本点组成的集合称为随机事件;简称事件;即事件是样本空间的子集;

            由样本空间单个元素组成的子集称为基本事件;

            由样本空间最大子集构成的事件称为必然事件;

            由样本空间最小自己(即空集)构成的事件称为不可能事件;

事件的相互关系:

  • 事件的包含:A⊆B

  • 事件的相等:A=B

  • 事件的积(交):A∩B,AB

  • 互斥事件(互不相容事件):不能同时出现

  • 事件的和(并):A∪B

  • 事件的差:A-B,A发生,B不发生

  • 对立事件(逆事件):互斥,必需出现其中一个

          事件的运算性质就是集合的性质

频率与概率

频率:

    频率是0~1之间的一个实数,在大量重复试验的基础上给出了随机事件发生可能性的估计。

    频率的稳定性:在充分多次试验中,事件的频率总在一个定值附近摆动,而且,试验次数越多摆动越小。这个性质叫做频率的稳定性。

    

概率:

    概率的统计性定义:当试验次数增加时,随机事件A发生的频率的稳定值p就称为概率。记为P(A)=p

    概率的公理化定义:设随机试验对于的样本空间为S。对每一个事件A,定义P(A),满足:

  1. 非负性:P(A) ≥ 0;

  2. 规范性:P(S) = 1;

  3. 可列可加性:A1, A2, ...两两互斥,及AiAj = ∅, i≠j, 则P(∪Ai) = ∑P(Ai)

(看不懂的调过即可)(从统计学定义理解即可)

条件概率:

    P(A|B)表示在事件B发生的条件下,事件A发生的概率,相当于A在B中所占的比例。此时,样本空间从原来的完整样本空间S缩小到了B

    由于有了条件的约束(事件B),使得原来的样本空间减小了。

                   

图1:a.条件概率的样本空间;b.条件概率的计算公式

 

例:一个家庭中有两个小孩,已知至少一个是女孩,问两个都是女孩的概率是多少?

(假定生男生女是等可能的)

解:由题意,样本空间为

S = {(兄, 弟), (兄, 妹), (姐, 弟), (姐, 妹)}

B = {(兄, 妹), (姐, 弟), (姐, 妹)}

A = {(姐, 妹)}

由于事件B已经发生,所以这时试验的所有可能只有三种,而事件A包含的基本事件只占其中的一种,所以有:

P(A|B) = 1/3,

即在已知至少一个是女孩的情况下,两个都是女孩的概率为1/3。

在这个例子中,如果不知道事件B发生,则事件A发生的概率为P(A) = 1/4

这里P(A) ≠ P(A|B),其原因在于事件B的发生改变了样本空间,使它由原来的S缩减为新的样本空间SB = B。

今天就这样,白了个白~

◆ ◆ ◆  ◆ ◆
麟哥新书已经在京东上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前京东正在举行100-50活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:

点击下方小程序即可进入购买页面:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

管理员二维码:


猜你喜欢

● 麟哥拼了!!!亲自出镜推荐自己新书《数据分析师求职面试指南》● 厉害了!麟哥新书登顶京东销量排行榜!● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主!● 你相信逛B站也能学编程吗点击阅读原文,即可参与京东100-50购书活动
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值