Python探索性数据分析(EDA)统计数据和建模

探索性数据分析(EDA)

在统计学中,探索性数据分析是一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法。 可以使用或不使用统计模型,但主要是 EDA 用于查看数据可以告诉我们超出正式建模的内容,从而对比传统的假设检验。EDA 不同于初始数据分析 (IDA),更侧重于检查模型拟合和假设检验所需的假设,并根据需要处理缺失值和进行变量转换。 EDA 包含 IDA。

EDA 的目标是:

  • 启用数据中的意外发现
  • 就观察到的现象的原因提出假设
  • 评估统计推断所依据的假设
  • 支持选择适当的统计工具和技术
  • 通过调查或实验为进一步收集数据提供基础

EDA 中使用的典型图形技术有:

  • 箱形图
  • 直方图
  • 多变量图表
  • 运行图表
  • 帕累托图
  • 散点图(2D/3D)
  • 茎叶图
  • 平行坐标
  • 赔率
  • 有针对性的投影追踪
  • 热图
  • 条形图
  • 地平线图
  • 基于字形的可视化方法
  • 投影方式
  • 这些图的交互式版本

降维:

  • 多维缩放
  • 主成分分析(PCA)
  • 多线性主成分分析
  • 非线性降维(NLDR)
  • 相关性的图像

典型的定量技术有:

  • 中位数抛光
  • 三均值
  • 排序

摘录:描述性统计

import matplotlib.pyplot as plt
from IPython.display import Math, Latex
from IPython.core.display import Image
import seaborn as sns

sns.set(color_codes=True)
sns.set(rc={'figure.figsize':(10,6)})
# Uniform Distribution
from scipy.stats import uniform

number = 10000
start = 20
width = 25

uniform_data = uniform.rvs(size=number, loc=start, scale=width)
axis = sns.distplot(uniform_data, bins=100, kde=True, color='skyblue', hist_kws={"linewidth": 15})
axis.set(xlabel='Uniform Distribution ', ylabel='Frequency')

EDA可视化辅助

概要:折线图 条形图 散点图 面积图和堆积图 饼图 表格图 极坐标图 直方图 棒棒糖图 选择最佳图表 其他库

EDA数据清理和分析

概要:加载数据集 数据转换 数据分析

数据转换

概要:背景 合并数据库风格的数据框 转换技术 数据转换的好处

描述性统计

概要:理解统计 集中趋势度量 离散度量

组合数据集

概要:了解 groupby() Groupby 机制 数据聚合 数据透视表和交叉表

相关性

概要:介绍相关性 理解单变量分析 理解双变量分析 理解多变量分析 使用泰坦尼克号数据集讨论多变量分析 概述辛普森悖论 相关性并不意味着因果关系

时间序列

概要:使用开放电力系统数据了解时间序列数据集

建模

假设检测和回归

概要:假设检验 p-hacking 理解回归 回归类型 模型开发和评估

EDA产品品质数据分析

源代码

参阅 - 亚图跨际
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值