《数据科学家养成手册》第八章---统计学

最新推荐文章于 2024-01-23 11:02:34 发布

橘子甜不甜

最新推荐文章于 2024-01-23 11:02:34 发布

阅读量471

点赞数

分类专栏：书目 2018年目标以及每天的完成情况记录

本文链接：https://blog.csdn.net/luolang_103/article/details/80142387

版权

2018年目标以及每天的完成情况记录同时被 2 个专栏收录

120 篇文章 10 订阅

订阅专栏

书目

8 篇文章 0 订阅

订阅专栏

数理统计的鼻祖------阿道夫.凯特勒

1.凯特勒的“平均人”思想

凯特勒运用概率论的方法进一步的研究了社会道德领域的大量统计资料，发现“在我们对大多数人进行观察的时候，人的意志就平均化起来，并且不留任何显著的痕迹。所有部分一直的作用，和纯粹受偶然原因做制约的各种现象一样，他们即被中和或抵消了”

2.统计学中一些基本的概念

(1).总体（population）：所研究的全部个体（数据）的集合。

(2).样本（sample）：总体中抽出来的一部分元素

(3).参数（Parameter）：用来描述总体特征的概括性的数字度量，是研究者想要了解的总体的某种特征值。研究者通常所关心的参数有：总体平均数，总体标准差，总体比例等

3.误差

误差是一种客观存在的现象。误差只能尽量的去减少，但是不能消除。
(1)抽样误差（sampling error）

指由抽样的随机性引起的样本结果与总体真值之间的误差。由于抽样本身是一种用少量样本“代表”总体的行为，所以无法避免“以偏概全”的情况发生

import random
population = [0 for i in range(10000)]
for i in range(1000):
    population[i] = 1
for iterator in range(1000):
    sample = [0 for i in range(100)]
    for i in range(100):
        sample[i] = population[random.randrange(10000)]
    count = 0
    for i in range(100):
        count+=sample[i]
    print  (float(count)/100)

（1）通过代码会得到相应的实验结果

（2）列出相应的统计表格

（3）做出函数图像，或分布曲线

减少抽样误差的方法

（1）增加样本数目

（2）使用卡法分布方法

（2）非抽样误差

8.7概括性度量

（1）众数 (mode)

（2）中位数

（3）平均数（mean）

（4）加权平均数（weighted mean）

8.7.2 离散程度的度量

（1）方差

（2）标准差

（3）级差

概率与分布--古典概率（1）事件有限（2）每次出现的可能相同

使用Python模拟一枚硬币的抛掷问题

import random

coins =[0 for i in range(1000)]
proportion = [0 for i in range(1000)]

for i in range(1000):
    coins[i] = random.randrange(2)
    sum = 0
    for j in range(i+1):
        sum+=coins[j]
    proportion[i] = (float(sum)/(i+1))
    print ('%.3f' %proportion[i])

8.8.1数学期望（Mean）

：在试验中每次可能结果的概率乘以其结果的综合的平均值

对于离散的：