一、读取数据(pandas库)
data = pd.read_csv(path, encoding = "UTF-8")
二、集中趋势的度量 (numpy库)
1.众数
from scipy.stats import mode
mode_num = mode(data)
众数:mode_num[0][0] 个数:mode_num[1][0]))
2.中位数
- data.median()
- np.percentile(data,50)
- data.quantile(.50)
3.平均数
- 算数平均数 data.mean()
- 几何平均数 s = 1 for i in data: s = i * s np.sqrt(s)
三、离散趋势的度量
1.方差 data.var()
2.标准差 data.std()
3.极差 data.max() - data.min()
4.平均绝对离差 M = 0 for i in data: M += abs(i - data.mean()) M/len(data)
5.上四分位数
- np.percentile(data,75)
- data.quantile(.75)
6.下四分位数
- data.quantile(.25)
- np.percentile(data,25)
7.四分位差 np.percentile(data,75) - np.percentile(data,25)
8.离散系数 data.std()/data.mean()
四.偏度与峰度 from scipy import stats
- 偏度 stats.skew(data)
- 峰度 stats.kurtosis(data)