这部分介绍概率里的重要概念,如随机事件,贝叶斯概率公式。
统计里描述数据分布的重要概念如期望,方差,众数,四分位数。
统计推断里的参数估计
3.1 概率
随机事件:某一事件可能发生,也可能不发生,则称其为随机事件
频率:以抛硬币为例,重复抛十次,若出现4次正面,6次反面。
记A:出现正面 B:出现反面
事件A的频率为:P(A) = 4/10 其中4称为事件A的频数。
概率:使用频率的稳定值作为该事件的概率近似值
条件概率:P(色盲患者|女性) = p(女性,且是色盲患者)/p(女性)
该公式说明的是:某人为女性,那么她是色盲患者的概率是多少,换成公式可以表示为:
事件独立性:事件A的发生与事件B是否发生无关,则称两个事件是独立的。若事件A,事件B独立,则有P(AB) = P(A)*P(B),这个性质在朴素贝叶斯算法会用到。
全概率公式:P(色盲患者) = P(女性)*P(是女性,且是色盲患者) + P(男性)*P(是男性,且是色盲患者)。
全概率公式的思想就是:将事件A分解成几个小事件,然后相加从而求得事件A的概率。
换成公式可表示为:
贝叶斯公式:与全概率公式解决问题相反,贝叶斯公式建立在条件概率的基础上,用来寻找事件发生的起因。如图:
在知道某人为色盲患者,那么他可能是男性,也可能是女性,通过这条公式,可以推断出该患者是女性的概率,与是男性的概率。
他的核心思想是:通过结果,推断导致该结果的原因。用数学公式表示为:
3.2 描述性统计
3.2.1集中趋势
集中趋势是指某一组数据向中心值靠拢的倾向,测度集中趋势就是寻找代表数据一般水平的代表值。常用的衡量标准有算术平均值,加权平均值,中位数,众数。