数理统计的鼻祖------阿道夫.凯特勒
1.凯特勒的“平均人”思想
凯特勒运用概率论的方法进一步的研究了社会道德领域的大量统计资料,发现“在我们对大多数人进行观察的时候,人的意志就平均化起来,并且不留任何显著的痕迹。所有部分一直的作用,和纯粹受偶然原因做制约的各种现象一样,他们即被中和或抵消了”
2.统计学中一些基本的概念
(1).总体(population):所研究的全部个体(数据)的集合。
(2).样本(sample):总体中抽出来的一部分元素
(3).参数(Parameter):用来描述总体特征的概括性的数字度量,是研究者想要了解的总体的某种特征值。研究者通常所关心的参数有:总体平均数,总体标准差,总体比例等
3.误差
误差是一种客观存在的现象。误差只能尽量的去减少,但是不能消除。
(1)抽样误差(sampling error)
指由抽样的随机性引起的样本结果与总体真值之间的误差。由于抽样本身是一种用少量样本“代表”总体的行为,所以无法避免“以偏概全”的情况发生
import random
population = [0 for i in range(10000)]
for i in range(1000):
population[i] = 1
for iterator in range(1000):
sample = [0 for i in range(100)]
for i in range(100):
sample[i] = population[random.randrange(10000)]
count = 0
for i in range(100):
count+=sample[i]
print (float(count)/100)
(1)通过代码会得到相应的实验结果
(2)列出相应的统计表格
(3)做出函数图像,或分布曲线
减少抽样误差的方法
(1)增加样本数目
(2)使用卡法分布方法
(2)非抽样误差
8.7概括性度量
(1)众数 (mode)
(2)中位数
(3)平均数(mean)
(4)加权平均数(weighted mean)
8.7.2 离散程度的度量
(1)方差
(2)标准差
(3)级差
概率与分布--古典概率(1)事件有限(2)每次出现的可能相同
使用Python模拟一枚硬币的抛掷问题
import random
coins =[0 for i in range(1000)]
proportion = [0 for i in range(1000)]
for i in range(1000):
coins[i] = random.randrange(2)
sum = 0
for j in range(i+1):
sum+=coins[j]
proportion[i] = (float(sum)/(i+1))
print ('%.3f' %proportion[i])
8.8.1数学期望(Mean)
:在试验中每次可能结果的概率乘以其结果的综合的平均值
对于离散的:
对于连续的:
世界中的任何事物每时每刻都在进行着改变,我们没有办法做一个“快照”,故而我们的数据总的说来都是存在抽样框误差的啊
正态分布:
(1)组成正态分布的因子是正态分布
(2)正态分布的叠加为承台分布
设Xn为一个是随机变量,且服从参数为p的二项分布(又称为伯努利分布),则对于任意一的x恒有:
资源:
伯努利分布、二项分布、几何分布、超几何分布、泊松分布 - CSDN博客
https://blog.csdn.net/zlbflying/article/details/47777943伯努利分布是专门的研究一个随机过程中事件x发生的概率P和不发生的概率1-p的随机过程中的概率定量计算问题
泊松分布的参数λ是单位时间(或单位面积)没随机事件的平均发生率。它适合描述单位时间内随机事件发生的次数
卡方分布:n个服从标准正态分布的随机变量的平方和
卡方分布(Chi-squared Distribution) - CSDN博客
https://blog.csdn.net/huangjx36/article/details/78002996
每天一点统计学——卡方分布
http://baijiahao.baidu.com/s?id=1562063886038915&wfr=spider&for=pc
统计学是大数据存在的基础