第一章 数据特征分析

一、几个基础分析思路

  • 分布分析:研究数据的分布特征、分布类型,按定量、定性数据区分基本统计量
  • 对比分析:两个互相联系的指标进行比较
  • 统计分析:对定量数据进行统计分析,常从集中趋势和离中趋势两个方面分析
  • 帕累托分析:贡献度分析,帕累托原则:20/80定律
  • 正太性检测:利用观测数据判断总体是否服从正态分布的检验,是统计判决中重要的一种特殊的拟合优度假设检验
  • 相关性分析:分析连续变量之间的线性相关程度的强弱

二、分布分析
1.极差:max-min

def d_range(df,*cols):
    krange = []
    for col in cols:
        crange = df[col].max() - df[col].min()
        krange.append(crange)
    return(krange)
# 创建函数求极差

2.频率分布情况 - 定量字段
① 通过直方图直接判断分组组数

data[key2].hist(bins=10)

② 求出分组区间

gcut = pd.cut(data[key2],10,right=False)
# pd.cut(x, bins, right):按照组数对x分组,且返回一个和x同样长度的分组dataframe,right → 是否右边包含,默认True

③ 求出目标字段下频率分布的其他统计量 → 频数,频率,累计频率

r_zj = pd.DataFrame(gcut_count)
r_zj.rename(columns ={gcut_count.name:'频数'}, inplace = True)  # 修改频数字段名
r_zj['频率'] = r_zj / r_zj['频数'].sum()  # 计算频率
r_zj['累计频率'] = r_zj['频率'].cumsum()  # 计算累计频率

④ 绘制频率直方图

3.频率分布情况 - 定性字段
① 通过计数统计判断不同类别的频率
② 绘制频率直方图、饼图

三、对比分析
1.绝对数比较 → 相减
① 折线图比较

data = pd.DataFrame()
data.plot(kind='line',...,title = 'AB产品销量对比-折线图')

② 多系列柱状图比较

data.plot(kind = 'bar',...,title = 'AB产品销量对比-柱状图')

③ 柱状图堆叠图+差值折线图比较

plt.bar(x,y1,width = 1,facecolor = 'yellowgreen')
plt.bar(x,y2,width = 1,facecolor = 'lightskyblue')
plt.title('AB产品销量对比-堆叠图')
plt.plot(x,y3,'--go') 
plt.axhline(0,hold=None,color='r',linestyle="--",alpha=0.8)  # 添加y轴参考线
plt.title('AB产品销量对比-差值折线')

2.相对数比较 → 相除
① 结构分析
在分组基础上,各组总量指标与

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值