Datawhale 零基础入门数据挖掘-Task2 数据分析

最新推荐文章于 2021-04-13 13:54:06 发布

原创最新推荐文章于 2021-04-13 13:54:06 发布 · 151 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

本文详细介绍了数据科学项目从数据加载到特征分析的全过程，包括数据预处理、特征选择、异常值检测及可视化等关键步骤，为数据科学家提供了一套完整的实战指南。

@Task2 数据分析

主要内容

##1. 载入各种数据科学以及可视化库:

数据科学库 pandas、numpy、scipy；
可视化库 matplotlib、seabon；
其他；
##2. 载入数据：
载入训练集和测试集；
简略观察数据(head()+shape)；
##3. 数据总览:
通过describe()来熟悉数据的相关统计量
通过info()来熟悉数据类型
##4. 判断数据缺失和异常
查看每列的存在nan情况
异常值检测
##5. 了解预测值的分布
总体分布概况（无界约翰逊分布等）
查看skewness and kurtosis
查看预测值的具体频数
##6. 特征分为类别特征和数字特征，并对类别特征查看unique分布
##7. 数字特征分析
相关性分析
查看几个特征得偏度和峰值
每个数字特征得分布可视化
数字特征相互之间的关系可视化
多变量互相回归关系可视化
##8. 类型特征分析
unique分布
类别特征箱形图可视化
类别特征的小提琴图可视化
类别特征的柱形图可视化类别
特征的每个类别频数可视化(count_plot)

用pandas_profiling生成数据报告

代码

#coding:utf-8
#导入warnings包，利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

## 1) 载入训练集和测试集；
Train_data = pd.read_csv('train.csv', sep=' ')
Test_data = pd.read_csv('testA.csv', sep=' ')

## 2) 简略观察数据(head()+shape)
Train_data.head().append(Train_data.tail())


## 1) 通过describe()来熟悉数据的相关统计量
Train_data.describe()

## 2) 通过info()来熟悉数据类型
Train_data.info()

## 1) 查看每列的存在nan情况
Train_data.isnull().sum()

# nan可视化
missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()