python基础笔记(六)_数据清洗及建模

本文详细介绍了Python数据清洗和建模的过程,包括数据特征分析的分布、对比、统计和帕累托分析,以及正太性检验。此外,还探讨了如何处理缺失值和异常值,数据的归一化和离散化。最后,文章涵盖了线性回归、KNN分类、PCA主成分分析和K-means聚类等数学建模方法。
摘要由CSDN通过智能技术生成

数据特征分析

分布分析

  • 研究数据的分布特征和分布类型
  • 定量数据
    • 极差 : max - min
    • 通过直方图直接判断分组组数
      • 简单查看数据分布,确定分布组数
      • 一般8-16即可
    • 求出分组区间
      • pd.cut(x, bins, right)
      • 按照组数对x分组,且返回一个和x同样长度的分组dataframe
      • right:是否包含右边,默认为True
      • 通过groupby查看不同组的数据频率分布
    • 求出目标字段下频率分布的其他统计量 → 频数,频率,累计频率
    • 绘制频率直方图、饼图
  • 定性数据
    • 绘制频率直方图;根据不可用数据描述的特征,例如朝向
    • 通过计数统计判断不同类别的频率

对比分析

  • 两个互相联系的指标进行比较
  • 绝对数比较(相减)
    • 相互对比的指标在量级上不能差别过大
    • 折线图比较
    • 多系列柱状图比较
    • 柱状图堆叠图+差值折线图比较
  • 相对数比较(相除)
    • 有联系的指标综合计算后的对比,数值为相对数
    • 结构分析
      • 各组总量指标与总体的总量指标对比,计算出各组数量在总量中所占比重
      • 反映总体的内部结构
    • 比例分析
      • 将总体不同部分的指标数值进行对比,其相对指标一般称为“比例相对数”
      • 比例相对数 = 总体中某一部分数值 / 总体中另一部分数值
    • 空间比较分析(横向对比分析)
      • 同类现象在同一时间不同空间的指标数值进行对比,反应同类现象在不同空间上的差异程度和现象发展不平衡的状况
      • 空间比较相对数 = 甲空间某一现象的数值 / 乙空间同类现象的数值
    • 动态对比分析(纵向对比分析)
      • 同一现象在不同时间上的指标数值进行对比,反应现象的数量随着时间推移而发展变动的程度及趋势
      • 最基本方法,计算动态相对数 → 发展速度
      • 动态相对数(发展速度) = 某一现象的报告期数值 / 同一现象的基期数值
      • 基期:用来比较的基础时期
      • 报告期:所要研究的时期,又称计算期

统计分析

  • 统计指标对定量数据进行统计描述
  • 集中趋势度量
    • 指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值
    • 算数平均数
      • 简单算术平均值:总和 / 样本数量 (不涉及权重)
      • 加权算术平均值:(x1f1 + x2f2 + ... + xnfn) / (f1 + f2 + ... + fn)
    • 位置平均数
      • 众数 : 出现次数最多的数
      • 中位数 : 排序后处于中间的数
  • 离中趋势度量
    • 指一组数据中各数据以不同程度的距离偏离中心的趋势
    • 极差:最大值 - 最小值
    • 分位差:data['75%'] - data['25%']
    • 方差:各组中数值与算数平均数离差平方的算术平均数
    • 标准差
      • 方差的平方根
      • 标准差越大,离中趋势越明显
      • 最常用的离中趋势指标

帕累托分析

  • 贡献度分析
  • 帕累托法则:20/80定律
  • 客观存在的无法解释的不平衡
  • 多数,造成少许的影响
  • 少数,造成主要的、重大的影响
  • 分析步骤:
    • 1.根据值从大到小排列,绘制柱状图
    • 2.创建累计占比cumsum,
    • 3.找到累计占比超过80%时候的index和索引位置
    • 4.绘制累计占比曲线(y副坐标轴)
    • 5.突出显示累
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值