Dadawhale 入门数据挖掘-Task2 EDA 数据探索性分析

1 EDA的定义

探索性数据分析(Exploratory Data Analysis,简称EDA),指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。探索性数据分析是上世纪六十年代提出,其方法有美国统计学家John Tukey提出的。

2 EDA的计划:

1、形成假设,确定主题去探索;
2、清理数据,网上有一个网址公布斯坦福有一个软件叫datawrangler可以供大家自己免费下载,用于探索数据分析,很快的解决数据清洗的工作;
3、评价数据质量;
4、数据报表;
5、探索分析每个变量;
6、探索每个自变量与因变量之间的关系;
7、探索每个自变量之间的相关性;
8、从不同的维度来分析数据。

3 具体步骤

3.1 载入各种数据科学以及可视化库

例如pandas, numpy, matplotlib等库,这些库可以使用pip install进行安装。

3.2 载入数据

一般以.csv文件提供数据集,所以可以使用pandas的read_csv()进行读取,其中sep=’ '表示以空格进行划分数据。

Train_data = pd.read_csv('train.csv', sep=' ')

在载入数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值