一、几个基础分析思路
- 分布分析:研究数据的分布特征、分布类型,按定量、定性数据区分基本统计量
- 对比分析:两个互相联系的指标进行比较
- 统计分析:对定量数据进行统计分析,常从集中趋势和离中趋势两个方面分析
- 帕累托分析:贡献度分析,帕累托原则:20/80定律
- 正太性检测:利用观测数据判断总体是否服从正态分布的检验,是统计判决中重要的一种特殊的拟合优度假设检验
- 相关性分析:分析连续变量之间的线性相关程度的强弱
二、分布分析
1.极差:max-min
def d_range(df,*cols):
krange = []
for col in cols:
crange = df[col].max() - df[col].min()
krange.append(crange)
return(krange)
# 创建函数求极差
2.频率分布情况 - 定量字段
① 通过直方图直接判断分组组数
data[key2].hist(bins=10)
② 求出分组区间
gcut = pd.cut(data[key2],10,right=False)
# pd.cut(x, bins, right):按照组数对x分组,且返回一个和x同样长度的分组dataframe,right → 是否右边包含,默认True
③ 求出目标字段下频率分布的其他统计量 → 频数,频率,累计频率
r_zj = pd.DataFrame(gcut_count)
r_zj.rename(columns ={gcut_count.name:'频数'}, inplace = True) # 修改频数字段名
r_zj['频率'] = r_zj / r_zj['频数'].sum() # 计算频率
r_zj['累计频率'] = r_zj['频率'].cumsum() # 计算累计频率
④ 绘制频率直方图
3.频率分布情况 - 定性字段
① 通过计数统计判断不同类别的频率
② 绘制频率直方图、饼图
三、对比分析
1.绝对数比较 → 相减
① 折线图比较
data = pd.DataFrame()
data.plot(kind='line',...,title = 'AB产品销量对比-折线图')
② 多系列柱状图比较
data.plot(kind = 'bar',...,title = 'AB产品销量对比-柱状图')
③ 柱状图堆叠图+差值折线图比较
plt.bar(x,y1,width = 1,facecolor = 'yellowgreen')
plt.bar(x,y2,width = 1,facecolor = 'lightskyblue')
plt.title('AB产品销量对比-堆叠图')
plt.plot(x,y3,'--go')
plt.axhline(0,hold=None,color='r',linestyle="--",alpha=0.8) # 添加y轴参考线
plt.title('AB产品销量对比-差值折线')
2.相对数比较 → 相除
① 结构分析
在分组基础上,各组总量指标与