Datawhale 零基础入门数据挖掘-Task2 数据分析学习打卡

最新推荐文章于 2021-03-21 01:39:08 发布

Roman_K

最新推荐文章于 2021-03-21 01:39:08 发布

阅读量176

点赞数

本文链接：https://blog.csdn.net/Roman_K/article/details/105073819

版权

Datawhale 零基础入门数据挖掘-Task2 数据分析

- 一、学习目标：
- 二、内容介绍：

这个任务主要是学习EDA-数据探索性分析并打卡；
EDA是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

一、学习目标：

EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。

当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。

引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。

完成对于数据的探索性分析，并对于数据进行一些图表或者文字总结并打卡。

二、内容介绍：

1.载入各种数据科学以及可视化库:

数据科学库 pandas、numpy、scipy；
可视化库 matplotlib、seabon；
其他：如导入warnings包，利用过滤器来实现忽略警告语句；
以上库都可以通过pip install 安装。

2.载入数据

这一步载入训练集以及测试集。
可以用 pd.read_csv(filename)：从CSV文件导入数据。
利用head（）和shape函数简略观察数据，得出数据的形状，数据的大致信息等。

（要养成看数据集的head()以及shape的习惯，这会让你每一步更放心，不会导致接下里的连串的错误,）

3.总览数据概况

通过describe()来熟悉数据的相关统计量；

describe中有每列的统计量，个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值看这个信息主要是瞬间掌握数据的大概的范围以及每个值的异常值的判断，比如有的时候会发现999 9999 -1 等值这些其实都是nan的另外一种表达方式，有的时候需要注意下。
通过info()来熟悉数据类型；

通过info来了解数据每列的type，有助于了解是否存在除了nan以外的特殊符号异常。

4.判断数据缺失和异常

Ⅰ 查看每列的存在nan情况；

利用df.isnull().sum()了解每列缺失值的数量；

对nan进行可视化进行对比；

   missing = train_data.isnull().sum()
   missing = missing[missing > 0]
   missing.sort_values(inplace=True)
   missing.plot.bar()

结果会得到一张柱状图显示缺失值的个数，这两步主要的目的在于 nan存在的个数是 否真的很大，如果很小一般选择填充，如果使用lgb等树模型可以直接空缺，让树自己去优化，但如果nan存在的过多、可以考虑删掉。

可视化缺省值（用msno包）
· Matrix（）函数，能快速直观地看到数据集的完整性情况，矩阵显示，得到的白线越多，证明缺失值越多；
· sample（）函数表示抽取表格中样本的个数；
· msno.bar （）可以简单的展示无效数据的条形图；

Ⅱ 查看异常值检测
利用data.info()查看各个字段的数据类型；
遇到 “ - ” ，可先将其替换为nan，用 .replace(’-’, np.nan, inplace=True)；

5.了解预测值的分布
查看预测值的频数：train_data[‘price’].value_counts()；
1) 总体分布概况（无界约翰逊分布等）
2) 查看skewness and kurtosis
3) 查看预测值的具体频数
（log变换 z之后的分布较均匀，可以进行log变换进行预测，这也是预测问题常用的trick）

6.特征分为类别特征和数字特征，并对类别特征查看unique分布

分离label即预测值，Y_train = Train_data[‘price’]，这个区别方式适用于没有直接label coding的数据，这里不适用，需要人为根据实际含义来区分；
数字特征

 numeric_features = Train_data.select_dtypes(include=[np.number])
 numeric_features.columns

类型特征

 categorical_features = Train_data.select_dtypes(include=[np.object])
 categorical_features.columns

特征nunique分布，得出特征分布及特征不同值

for cat_fea in categorical_features:
    print(cat_fea + "的特征分布如下：")
    print("{}特征有个{}不同的值".format(cat_fea, Train_data[cat_fea].nunique()))
    print(Train_data[cat_fea].value_counts())

7.数字特征分析（看图观察）
1) 进行相关性分析；
2) 查看几个特征得偏度和峰值；
3) 每个数字特征得分布可视化；
4) 数字特征相互之间的关系可视化；

8.类别特征分析
1) unique分布；
2) 类别特征箱形图可视化；
3) 类别特征的小提琴图可视化；
4) 类别特征的柱形图可视化；
5) 类别特征的每个类别频数可视化(count_plot)；

9 用pandas_profiling生成数据报告

用pandas_profiling生成一个较为全面的可视化和数据报告(较为简单、方便) 最终打开html文件即可

Roman_K

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale 零基础入门数据挖掘-Task2 数据分析学习打卡

Datawhale 零基础入门数据挖掘-Task2 数据分析一、学习目标：二、内容介绍：这个任务主要是学习EDA-数据探索性分析并打卡；EDA是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。一、学习目标：EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得...
复制链接

扫一扫