@Task2 数据分析
主要内容
##1. 载入各种数据科学以及可视化库:
- 数据科学库 pandas、numpy、scipy;
- 可视化库 matplotlib、seabon;
- 其他;
##2. 载入数据: - 载入训练集和测试集;
- 简略观察数据(head()+shape);
##3. 数据总览: - 通过describe()来熟悉数据的相关统计量
- 通过info()来熟悉数据类型
##4. 判断数据缺失和异常 - 查看每列的存在nan情况
- 异常值检测
##5. 了解预测值的分布 - 总体分布概况(无界约翰逊分布等)
- 查看skewness and kurtosis
- 查看预测值的具体频数
##6. 特征分为类别特征和数字特征,并对类别特征查看unique分布
##7. 数字特征分析 - 相关性分析
- 查看几个特征得 偏度和峰值
- 每个数字特征得分布可视化
- 数字特征相互之间的关系可视化
- 多变量互相回归关系可视化
##8. 类型特征分析 - unique分布
- 类别特征箱形图可视化
- 类别特征的小提琴图可视化
- 类别特征的柱形图可视化类别
- 特征的每个类别频数可视化(count_plot)
- 用pandas_profiling生成数据报告
代码
#coding:utf-8
#导入warnings包,利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
## 1) 载入训练集和测试集;
Train_data = pd.read_csv('train.csv', sep=' ')
Test_data = pd.read_csv('testA.csv', sep=' ')
## 2) 简略观察数据(head()+shape)
Train_data.head().append(Train_data.tail())
## 1) 通过describe()来熟悉数据的相关统计量
Train_data.describe()
## 2) 通过info()来熟悉数据类型
Train_data.info()
## 1) 查看每列的存在nan情况
Train_data.isnull().sum()
# nan可视化
missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()
本文详细介绍了数据科学项目从数据加载到特征分析的全过程,包括数据预处理、特征选择、异常值检测及可视化等关键步骤,为数据科学家提供了一套完整的实战指南。
443

被折叠的 条评论
为什么被折叠?



