1、 数值分析
from numpy import array
from numpy.random import normal, randint
list_data = [1, 2, 3] #使用List来创造一组数据
array_data = array([1, 2, 3]) #使用array来创造一组数据
normal_data = normal(0, 10, size=100) #创造一组服从正态分布的定量数据
randint_data = randint(0, 10, size=100) #创造一组服从均匀分布的定性数据
#定量:均值、中位数 定性:众数 借由数据的中心位置,我们可以知道数据的一个平均情况
from numpy import mean, median
from scipy.stats import mode
list_data_mean = mean(list_data)
list_data_median = median(list_data)
list_data_mode = mode(list_data)
randint_data_mean = mean(randint_data) #均值相对于中位数来说,包含的信息量更大,但是更容易受异常影响
randint_data_median = median(randint_data)
randint_data_mode = mode(randint_data) #众数是出现次数最多的值
#对数据的中心位置有所了解以后,一般我们会想要知道数据以中心位置为标准有多发散
#如果以中心位置来预测新数据,那么发散程度决定了预测的准确性,数据的发散成都可用极差、方差、标准差、变异系数来衡量
#极差是只考虑了最大值和最小值的发散程度指标,相对来说,方差包含了更多的信息,标准差基于方差但是与原始数据同量级
#变异系数基于标准差但是进行了无量纲处理
from numpy import ptp, var, std
list_data_ptp = ptp(list_data) #极差
list_data_var = var(list_data) #方差
list_data_std = std(list_data) #标准差
list_data_mean_std = mean(list_data) / std(list_data)
normal_data_ptp = ptp(normal_data)
normal_data_var = var(normal_data)
normal_data_std = std(normal_data)
normal_data_mean_std = mean(normal_data) / std(normal_data)
#之前提到均值容易受异常值影响,那么如何衡量偏差,偏差到多少算异常是两个必须要解决的问题
#定义z-score为测量值距均值相差的标准差数目,当标准差不为0且不接近于0的数时,z-分数是有意义的
l