代码实现了分析数据集所需的基本量值:均值方差协方差相关系数,也给出了绘制各类图标的代码:柱状直方饼状箱式散点。
# -*- coding: utf-8 -*-
"""
Created on Fri Nov 9 10:25:46 2018
@author: user
"""
import numpy as np
"""
生成虚拟数据
"""
n=5 # 特征数目
m=6 # 样本数目
data=np.random.rand(n,m)*10
"""
基本描述性统计量
"""
d_mean=np.mean(data,0) # mean(data):全部的均值,mean(data,0):按行做均值, mean(data,1):按列做均值
d_median=np.median(data) # 中位数,解释和使用同上
d_ptp=np.ptp(data,0) # 极差,解释和使用同上
d_var=np.var(data,0) # 方差,同上
d_std=np.std(data,0) # 标准差,同上
d_CV=d_std/d_mean # 变异系数,即无量纲化,表示数据群的稳定程度. 此处除法是对应元素相除
for i in range(n):
d_Zscore=(data[i,:]-np.mean(data,1))/np.std(data,1) # 每个样本第 i 个特征取值的偏差程度
"""
衡量相关程度
"""
d_cov=np.cov(data[:,0],data[:,1]) # 前两列数据的协方差矩阵 (0,0):第一列方差,