1、统计学
1.1. 描述性分析
1.1.1 集中趋势量度
均值的局限性
均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ;
中位数
中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。不适用于两批的差异很大。
众数
众数是样本观测值在频数分布表中频数最多的那一组的组中值。平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。
1.1.2 分散性与变异性的量度
分散性
全距=max-min
全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。局限性在于“若数据中存在异常值的情况,会产生偏差。
四分位数
所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。
迷你距
它是一组数据中较小四分位数与较大四分位数之差。迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。
全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率。
变异性
度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。
方差
方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。
标准差
标准差为方差的开方。
小结
-
描述一批数据,通过集中趋势分析,找出其“代表值” ;通过分散和变异性的描述,查看这批数据的分散程度。
-
集中趋势参数:均值,中位数,众数
-
分散性和变异性参数 : 全距,四分位距,方差,标准差
1.2. 概率论
- 事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。
- 概率:每一种结果发生的可能性。所有结果的可能性相加等于1。
- 概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。
- 期望:表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)
- 方差:表征了事件不同结果之间的差异或分散程度。
1.2.1 概率分布
离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。
离散型分布
离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。
几何分布:为了取得第一次成功,需要进行多少次实验;
二项分布:在n次试验中能成功多少次;
泊松分布:给定区间内的事件发生次数;
连续型分布
连续型分布本质上就是求连续的一个数据段概率分布。
正态分布
- f(x)----是该关于事件X的概率密度函数
- μ — 均值
- σ^2 —方差
- σ —标准差
绿色区域的面积 —该区间段的概率
正态分布概率的求法
- step1 — 确定分布和范围 ,求出均值和方差
- step2 — 利用标准分将正态分布转化为标准正态分布
- step3 —查表找概率
1.2.2 多个事件
多个事件就要探讨事件和事件之间的关系
- 对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件
- 穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1
- 互斥事件:如何A和B为互斥事件,那么A和B没有任何交集
- 独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。
- 相关事件:如果A件事的结果会影响B事件结果的概率分布那么A和B互为相关事件。