Task 2 数据分析

该博客探讨了数据分析的重要性,包括熟悉数据集、检查缺失值和唯一值、理解数据类型以及特征间的关系。通过代码示例展示了如何查看数据集的总体信息和特征的数值与对象类型,强调了类别型和数值型特征在模型构建中的处理策略。
摘要由CSDN通过智能技术生成

目的:
1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.
2.了解变量间的相互关系、变量与预测值之间的存在关系。
3.为特征工程做准备

2.2 内容介绍
1、数据总体了解:
1)读取数据集并了解数据集大小,原始特征维度;
2)通过info熟悉数据类型;
3)粗略查看数据集中各特征基本统计量;
2、缺失值和唯一值:
1)查看数据缺失值情况
2)查看唯一值特征情况
3、深入数据-查看数据类型
1)类别型数据
2)数值型数据
①离散数值型数据
②连续数值型数据
4、数据间相关关系
1)特征和特征之间关系
2)特征和目标变量之间关系
5、用pandas_profiling生成数据报告

2.3 代码示例

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')
import pandas.util.testing as tm

data_train = pd.read_csv('./train.csv')
data_test_a = pd.read_csv('./testA.csv')

"""
读取文件的拓展
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值