数据集中趋势分析
数据集中趋势分析是为了衡量数据的集中程度,常用的集中趋势衡量指标包括数据的
平均值
、
中位数
、
众数
和
分位数
。平均值和中位数多作为连续数据的衡量指标,众数多作为离散数据的衡量指标。
平均值
python实现。
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(1,100,100).reshape((25,4)))
df.mean(axis = 0) #计算每列的平均值
df.mean(axis = 1) # 计算每行的平均值
中位数
中位数是按顺序排列的一组数据中位于中间位置的那个数,当数据个数为奇数时,中位数即为正中间的那个数,当数据个数为偶数时,中位数即为中间两个数的平均值,python实现如下:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(1,100,100).reshape((25,4)))
df.median(axis = 0) # 计算每列的中位数
df.median(axis = 1) # 计算每行的中位数
众数
众数是一组数据中出现次数最多的数值,代表该组数据的集中趋势点,一组数据中的众数可能有多个。python实现如下:
import pandas as pd
import