统计与概率论本身与数据分析的关联度非常的高而且掌握的程度也可以很好的反映出从业者的投入程度。
接下来我们通过一些例子,来体验概率论思维。
扔十次硬币,真的会有五次朝上?
直觉上,我们知道抛硬币正反两面朝上的概率各一半,如果你真的现在去抛十次硬币,真的有5次正面向上的情况出现么?其实这种可能性只有1/4左右,显然和大多数人的直觉完全不同了。
我们都知道,统计学的规律只有经过了大量随机试验才能得出,也才有意义。但是随机试验得到的结果,和我们用古典概率算出来的结论可能是两回事。不仅你掷10次硬币大部分时候不可能得到五次正面朝上的结果,你做其它随机试验也是如此。
再比如比如你掷12次骰子,大约只有30%的情况它正好有两次六点朝上。这时你是否能讲,有70%的可能性要否定六点朝上的概率是1/6这个结论呢?似乎也不是这样的。
比如抛硬币,每次正面朝上的概率是1/2,事件A是“正面朝上”,它出现的概率每次也是1/2。当然事件B就是反面朝上,每次的概率也是1/2。在一般情况下,出现A的概率是p,B的概率是1-p。这类试验后来被称为伯努利试验。
好了,基本的设定讲清楚了。我们来分析一下掷硬币的问题。照理讲,我们掷10次硬币,正面朝上的次数应该是5次。但是如果你真的拿一个硬币去试试,你会发现可能只有3次正面朝上,也可能4次正面朝上,甚至会出现没有一次正面朝上的情况。
如果我们把从0次正面朝上,也就是说全部是背面朝上,到10次全是正面朝上的可能性都算出来,画成一个折线图,就是一个中间鼓起的曲线: