数据预览及数据处理

最新推荐文章于 2022-01-26 09:34:57 发布

他不仅仅是幻想

最新推荐文章于 2022-01-26 09:34:57 发布

阅读量1.7k

点赞数 2

分类专栏：数据科学文章标签：数据科学数据分析数据处理数据清洗

本文链接：https://blog.csdn.net/mofangchenyunfeng/article/details/90815412

版权

本文涵盖了数据预览，包括DataFrame的多种查看方法，数据清洗涉及缺失值、重复值和异常值处理，区间缩放使用了preprocessing.scale和StandardScaler，特征编码涉及独热编码、字典编码和序列编码，最后讨论了数据平衡的上采样方法SMOTE以及EDA中的关键分析步骤。

摘要由CSDN通过智能技术生成

~~(学了新东西再更)~~

train.csv = X |y

= X_train |y_trian

X_test |y_test

.Train.csv（文件链接，3M）

一、数据预览

1.DataFrame预览：

train.head() # 查看前五行
train.describe() # 查看数值型列
train.shape
train.columns #取columns，可.tolist()转化
train.columns.values #直接获取列的值
# 当列数太多显示不全时，可以通过pd.set_option('display.max_columns',num)来设置能显示的最大列数，其中num为传入的参数，如25；之后还可以通过pd.reset_option('display.max_columns')恢复默认设置

2.DataFrame查看特定行列：

train.loc[0:5,'age','job'] #双闭，前6行，前2列
train.iloc[0:5,0:1] #左闭右开，前5行，前1列
train['age'] #age列，type=Series
train.age   #和train['age']相同
train[['age','marital']] #取两列
train['age'][0:5] #左闭右开，age列，前5行

3.DataFrame查看列的级别（即“取值范围”）：

#方法一：
train['age'].value_counts().index #获取级别，按计数降序排列

#方法二：（不常用， 一般使用方法一。假装已经'import pandas as pd'了）
pd.Series(train['age'].values).unique() #type=array,顺序为该值在df中的出现顺序，数值型可.sort()排序

4.DataFrame计数：

train['age'].values #type=array,顺序为df.index的顺序
train['age'].value_counts() #type=Series,已按number降序排列
train['age'].value_counts().index #获取级别（即“索引”）
train['age'].value_counts().values #获取number
# ↑，注意上面这三行代码的结果都是按照number降序排列的

#使用numpy的