数据特征分析
分布分析
- 研究数据的分布特征和分布类型
- 定量数据
- 极差 : max - min
- 通过直方图直接判断分组组数
- 简单查看数据分布,确定分布组数
- 一般8-16即可
- 求出分组区间
- pd.cut(x, bins, right)
- 按照组数对x分组,且返回一个和x同样长度的分组dataframe
- right:是否包含右边,默认为True
- 通过groupby查看不同组的数据频率分布
- 求出目标字段下频率分布的其他统计量 → 频数,频率,累计频率
- 绘制频率直方图、饼图
- 定性数据
- 绘制频率直方图;根据不可用数据描述的特征,例如朝向
- 通过计数统计判断不同类别的频率
对比分析
- 两个互相联系的指标进行比较
- 绝对数比较(相减)
- 相互对比的指标在量级上不能差别过大
- 折线图比较
- 多系列柱状图比较
- 柱状图堆叠图+差值折线图比较
- 相对数比较(相除)
- 有联系的指标综合计算后的对比,数值为相对数
- 结构分析
- 各组总量指标与总体的总量指标对比,计算出各组数量在总量中所占比重
- 反映总体的内部结构
- 比例分析
- 将总体不同部分的指标数值进行对比,其相对指标一般称为“比例相对数”
- 比例相对数 = 总体中某一部分数值 / 总体中另一部分数值
- 空间比较分析(横向对比分析)
- 同类现象在同一时间不同空间的指标数值进行对比,反应同类现象在不同空间上的差异程度和现象发展不平衡的状况
- 空间比较相对数 = 甲空间某一现象的数值 / 乙空间同类现象的数值
- 动态对比分析(纵向对比分析)
- 同一现象在不同时间上的指标数值进行对比,反应现象的数量随着时间推移而发展变动的程度及趋势
- 最基本方法,计算动态相对数 → 发展速度
- 动态相对数(发展速度) = 某一现象的报告期数值 / 同一现象的基期数值
- 基期:用来比较的基础时期
- 报告期:所要研究的时期,又称计算期
统计分析
- 统计指标对定量数据进行统计描述
- 集中趋势度量
- 指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值
- 算数平均数
- 简单算术平均值:总和 / 样本数量 (不涉及权重)
- 加权算术平均值:(x1f1 + x2f2 + ... + xnfn) / (f1 + f2 + ... + fn)
- 位置平均数
- 众数 : 出现次数最多的数
- 中位数 : 排序后处于中间的数
- 离中趋势度量
- 指一组数据中各数据以不同程度的距离偏离中心的趋势
- 极差:最大值 - 最小值
- 分位差:data['75%'] - data['25%']
- 方差:各组中数值与算数平均数离差平方的算术平均数
- 标准差
- 方差的平方根
- 标准差越大,离中趋势越明显
- 最常用的离中趋势指标
帕累托分析
- 贡献度分析
- 帕累托法则:20/80定律
- 客观存在的无法解释的不平衡
- 多数,造成少许的影响
- 少数,造成主要的、重大的影响
- 分析步骤:
- 1.根据值从大到小排列,绘制柱状图
- 2.创建累计占比cumsum,
- 3.找到累计占比超过80%时候的index和索引位置
- 4.绘制累计占比曲线(y副坐标轴)
- 5.突出显示累