由于练习数据百度网盘链接失效,所以自己生成训练数据,目的在于练习Python对数据进行描述性统计。
首先,穿件训练数据
import pandas as pd
data = {"第1列":[22,62,43,47,52,96,37,28],"第2列":[63,74,32,41,66,88,40,38],"第3列":[12,32,46,37,62,86,17,38],"第4列":[63,74,54,11,36,98,40,68]}
df = pd.DataFrame(data)
df
结果如下:
第1列 第2列 第3列 第4列
0 22 63 12 63
1 62 74 32 74
2 43 32 46 54
3 47 41 37 11
4 52 66 62 36
5 96 88 86 98
6 37 40 17 40
7 28 38 38 68
创建好数据之后,下面开始使用Python进行描述性统计。
1.计算非空
2.求和
3.求均值
4.求最大值/最小值
5.求中位数/众数
6.求方差
7.求标准差
8.求四分位
9.相关性算
求数据中第一列与第二列之间的相关性,使用corr()函数可得。
由上面运行结果可知,第一列与第二例之间相关性0.708