数据预览及数据处理

本文涵盖了数据预览,包括DataFrame的多种查看方法,数据清洗涉及缺失值、重复值和异常值处理,区间缩放使用了preprocessing.scale和StandardScaler,特征编码涉及独热编码、字典编码和序列编码,最后讨论了数据平衡的上采样方法SMOTE以及EDA中的关键分析步骤。
摘要由CSDN通过智能技术生成

(学了新东西再更)

train.csv = X  |y 

                =   X_train  |y_trian

                     X_test   |y_test

.Train.csv(文件链接,3M)

目录:

 

一、数据预览

1.DataFrame预览:

train.head() # 查看前五行
train.describe() # 查看数值型列
train.shape
train.columns #取columns,可.tolist()转化
train.columns.values #直接获取列的值
# 当列数太多显示不全时,可以通过pd.set_option('display.max_columns',num)来设置能显示的最大列数,其中num为传入的参数,如25;之后还可以通过pd.reset_option('display.max_columns')恢复默认设置

2.DataFrame查看特定行列:

train.loc[0:5,'age','job'] #双闭,前6行,前2列
train.iloc[0:5,0:1] #左闭右开,前5行,前1列
train['age'] #age列,type=Series
train.age   #和train['age']相同
train[['age','marital']] #取两列
train['age'][0:5] #左闭右开,age列,前5行

3.DataFrame查看列的级别(即“取值范围”):

#方法一:
train['age'].value_counts().index #获取级别,按计数降序排列

#方法二:(不常用, 一般使用方法一。假装已经'import pandas as pd'了)
pd.Series(train['age'].values).unique() #type=array,顺序为该值在df中的出现顺序,数值型可.sort()排序

4.DataFrame计数:

train['age'].values #type=array,顺序为df.index的顺序
train['age'].value_counts() #type=Series,已按number降序排列
train['age'].value_counts().index #获取级别(即“索引”)
train['age'].value_counts().values #获取number
# ↑,注意上面这三行代码的结果都是按照number降序排列的

#使用numpy的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值