第二天:数据科学-探索性数据分析

本文介绍了探索性数据分析(EDA),它通过图形化和非图形化手段帮助分析者洞察数据集,包括单变量的描述统计和多变量的相关性分析,以发现潜在结构、异常值和建立初步模型。
摘要由CSDN通过智能技术生成

一、探索性数据分析(EDA)

1.1 概念

可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集包含的各类信息

1.2 目的

①最大限度的观察数据集

②检测数据中存在的错误与异常值

③发觉潜在结构

④检验潜在的假设

⑤提取中更要变量

⑥建立初步模型

⑦确定最优因子设置

1.3 特点

①研究从原始数据入手,以实际数据为依据

②研究方法从实际出发,不以某种理论为依据

③分析工具简单直观更易普及

1.4 主要方法

①单变量——图形化分析、非图形化分析

②多变量——图形化分析、非图形化分析

③样本相似性与相异性分析

二、方法

2.1 单变量

主要观察于单变量的描述和统计推断两个方面,旨在用简单的概括形势反映出大量样本资料所容纳的基本信息,描述样本数据集中或离散趋势。

2.1.1 图形化分析

①直方图

②茎叶图

③箱型图——1先找出最大值最小值中位数和2个四分位数 2连接2个四分位数画出一个箱子 3将最大值最小值与箱子相连中位数放在中间

2.1.2 非图形化分析

①分类数据:使用表格、统计各种类别的数据出现频次

②定量数据:使用统计量

集中趋势:算术均数、中位数

数据离散:标准差、方差、极差

峰度与偏态:峰度:K (标准正态分布的K=3)、偏态:正、负

2.2 多变量

2.2.1进行相关性分析

相关程度:完全相关、不完全相关、不相关

相关方向:正相关,负相关

相关形式:线性相关、非线性相关

影响因素:单相关、负相关

2.2.2 方法

非图形化、 图形化

------------------------------------------------------------------------------明天再更新

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值