一、前言
早就接触到统计学的知识,一直想认真学一下,看过一些书,大多不能坚持。这种情况在我偶然看到《爱上统计学》一书时改变了,我把它看完了,而且觉得是看懂了。于是决定再看一遍,用Python完成书上的习题,记录下来。
描述统计(descriptive statistics)常用于整理、描述所收集数据的特征。推论统计(inferential statistics)通常是(但并非总是)数据收集和汇总后的下一步。推论统计常利用较小群体的数据来推论可能的较大群体的特征。
二、计算和理解平均数
平均数也叫做集中趋势量数(measures of central tendency),一般有三种形式:均值、中位数和众数。
均值(mean):数据组中所有数值的总和除以该组数值的个数。
中位数(median):一系列数据的中点。中位数对极值不敏感,均值对极值敏感。
众数(mode) :出现数据最多的数值。如果每个数字都相同则没有众数。
在numpy中有直接求总和、平均数、中位数、最大值、最小值的函数,但没有找到求众数的函数,所以自己实现了一个。以下用python计算书上第2章的习题1的代码。
import numpy as np
import operator
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
43, 25, 24, 23,