统计:广义上讲,统计是一门“收集、整理、分析和解释数据或信息的科学”。统计是有关数据的科学,设计数据的收集、分类、汇总、分析以及数字信息的解释。
统计方法是一种用于研究、分析和学习试验单元的总体非常有用的方法
试验单元:采集数据的对象(一个人、一件物品、一次交易和一个事件);
总体:是关系的全体单元的集合(一般是人、物品、交易或者事件);
在研究总体的时候,关注的是总体中所有试验单元的某一个或几个特征,称之为变量,比如广东省所有人的的年龄、性别、收入和受教育程度
变量:每个试验单元的特征或属性;
样本:样本是从总体中选取的一部分,用于代表总体,是总体的一个子集;
样本数量:样本数量是有多少个样本,样本大小(样本容量)是每个样本里面有多少个数据
统计推断是利用样本得到的信息去估计、预测或推断总体的情况,而这一推断的依据就是中心极限定理。
中心极限定理:1.样本的平均值约等于总体的平均值;2.不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
随机变量与概率分布
随机变量是一个取值与试验的随机结果有关的数值变量,其中每个样本点有且只有一个样本点
随机变量有俩种类型:连续性随机变量和离散型随机变量
离散型随机变量:取值为可数个数的随机变量;
连续性随机变量:取值为一个区间或多个区间中任一点(即取值不可数)的随机变量
比如,在某一时间内餐馆等待就餐的顾客人数,x=0,1,2....为离散型随机变量;在超市购买食物的重量:0<x
根据随机变量的类型可以将概率分布划分为离散型随机变量的概率分布和连续性随机变量的概率分布
对于离散型随机变量的概率分布有二项分布、泊松分布、几何分布,伯努利分布
伯努利分布的特点:
1.试验进行了1此次尝试;
2.试验中包含俩种可能的结果,用S表示成功的结果,F表示失败的结果;
3.试验中成功的概率用p表示,失败的概率用q表示,q=1-p;
比如,抛一次硬币
二项试验的特点:
1.试验进行了n此次尝试;
2.每次试验中包含俩种可能的结果,用S表示成功的结果,F表示失败的结果;
3.每次试验中S的概率都是相同的,用p表示,失败的概率用q表示,q=1-p;
4.各个试验是相互独立;
5.二项随机变量x是n次试验中S的次数
比如,抛多次硬币
泊松随机变量的特点:
1.试验包括在给定单位时间、面积或体积的条件下某事件发生次数的计数;
2.在给定单位时间、面积或体积的条件下,事件发生的概率都相等;
3.在给定单位时间、面积或体积的条件下,事件发生的次数与其他互斥的单位里发生的次数都是独立的
4.在给定单位时间、面积或体积的条件下,事件发生的的平均次数用希腊字母表示
比如:超市收银台每分钟到达的顾客数、保险公司每天收到的死亡索赔数
超几何分布随机变量:
1.在一系列N的集合中国,随机无放回的抽取n个元素,在集合中r个元素标记为S(成功),那么(N-r)个元素被标记为F(失败);
2.超几何随机变量代表的就是随机样本n中被标记为S的元素的个数
超几何分布和二项分布都要求结果只有俩种,区别在于超几何分布的试验直接不是相互独立,二项分布的试验则是独立的
连续性随机变量的概率分布:正态分布和幂律分布
最常见的一种连续性随机变量是钟形的概率分布,即正态分布,
![ab5454acc684ea7f9ad561aa2a2e2b56.png](https://img-blog.csdnimg.cn/img_convert/ab5454acc684ea7f9ad561aa2a2e2b56.png)
另外一种连续性随机变量的分布是幂律分布,举个例子财富分配符合这一分布,穷人总是绝大部分,越有钱的又少,但是越少的人掌握着越丰厚的财富。
因为大多数数据都属于连续性随机变量,而又都符合正态分布规律,我们可以根据这一规律正确的预测数据的位置所在
![b3c8696d3f1d84d8a834719c18c5e195.png](https://img-blog.csdnimg.cn/img_convert/b3c8696d3f1d84d8a834719c18c5e195.png)