Datawhale 零基础入门数据挖掘-Task2 数据分析

本文详细介绍了数据科学项目从数据加载到特征分析的全过程,包括数据预处理、特征选择、异常值检测及可视化等关键步骤,为数据科学家提供了一套完整的实战指南。

@Task2 数据分析

主要内容

##1. 载入各种数据科学以及可视化库:

  • 数据科学库 pandas、numpy、scipy;
  • 可视化库 matplotlib、seabon;
  • 其他;
    ##2. 载入数据:
  • 载入训练集和测试集;
  • 简略观察数据(head()+shape);
    ##3. 数据总览:
  • 通过describe()来熟悉数据的相关统计量
  • 通过info()来熟悉数据类型
    ##4. 判断数据缺失和异常
  • 查看每列的存在nan情况
  • 异常值检测
    ##5. 了解预测值的分布
  • 总体分布概况(无界约翰逊分布等)
  • 查看skewness and kurtosis
  • 查看预测值的具体频数
    ##6. 特征分为类别特征和数字特征,并对类别特征查看unique分布
    ##7. 数字特征分析
  • 相关性分析
  • 查看几个特征得 偏度和峰值
  • 每个数字特征得分布可视化
  • 数字特征相互之间的关系可视化
  • 多变量互相回归关系可视化
    ##8. 类型特征分析
  • unique分布
  • 类别特征箱形图可视化
  • 类别特征的小提琴图可视化
  • 类别特征的柱形图可视化类别
  • 特征的每个类别频数可视化(count_plot)
  1. 用pandas_profiling生成数据报告

代码

#coding:utf-8
#导入warnings包,利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

## 1) 载入训练集和测试集;
Train_data = pd.read_csv('train.csv', sep=' ')
Test_data = pd.read_csv('testA.csv', sep=' ')

## 2) 简略观察数据(head()+shape)
Train_data.head().append(Train_data.tail())


## 1) 通过describe()来熟悉数据的相关统计量
Train_data.describe()

## 2) 通过info()来熟悉数据类型
Train_data.info()

## 1) 查看每列的存在nan情况
Train_data.isnull().sum()

# nan可视化
missing = Train_data.isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值