数据预处理常用操作

最新推荐文章于 2022-12-15 08:20:37 发布

丿Me丶初见灬

最新推荐文章于 2022-12-15 08:20:37 发布

阅读量1.6k

点赞数

文章标签：数据分析数据挖掘机器学习

本文链接：https://blog.csdn.net/qq_53074677/article/details/121504332

版权

数据预处理常用操作

数据导入
数据分析
数据处理
最后建议大家看一下飞桨的[数据准备和特征工程](https://aistudio.baidu.com/aistudio/education/group/info/1337)讲的非常好。

数据导入

导入数据并合并为df_features 方便对训练集和测试集一起做处理。

#读取excel
train = pd.read_excel(r"filepath")
test = pd.read_excel(r"filepath")
#读取csv
train = pd.read_csv(r"filepath")
test = pd.read_csv(r"filepath")
#合并数据
df_features = train.append(test)

数据分析

查看数据大小

print("训练集："+str(train.shape)+"\n测试集："+str(test.shape))

查看数据类型，缺失值，缺失值占比

#列号转中文
col = []
df_features.columns = col
#查看
bili = list((((df_features.isnull().sum())/df_features.shape[0]).map(lambda x:"{:.2%}".format(x))).values)
for index,values,isnull,bi in zip(list(df_features.dtypes.index),list(df_features.dtypes.values),list(df_features.isnull().sum()),bili):
    print("{:12}{:12}{:12}{:12}".format(str(index),str(values),str(isnull),str(bi)))

或者用 df_features.info()

查看数据相关性-热力图表示

#相关性函数data.corr()
#打印相关性矩阵第一列
#for index,values in zip(df_features.corr().index,df_features.corr().values[0]):
#    print("{:15}{:15}".format(index,values))
#查看相关性
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负
plt.figure(figsize=(20, 20))
ax = sns.heatmap(train.corr(),linewidths=5,vmax=1.0, square=True,linecolor='white',annot=True,center = 0)
ax.tick_params(labelsize=10)
plt.show()

数据处理

数据类型转换pd.to_numeric函数

#自动转换为数值类型数据，对于不可转换的数据设为NAN
df_features['columns_name'] = df_features['columns_name'].apply(pd.to_numeric,errors ='coerce')

详细可见Python pandas.to_numeric函数方法的使用

散点图观察

import matplotlib.pyplot as plt
plt.scatter(df_features['columns_name'].index, df_features['columns_name'].values)
plt.show()

缺失值处理

数据删除

删除重复的行:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

Python Pandas去重复数据drop_duplicates详解

删除一列:

df_features.drop('columns_name',axis=1,inplace=True)

缺失值填充：

普通填充方法：

填充-1：
df_features['columns_name'].fillna(-1, inplace=True)
填充众数，平均数，中位数等：
df_features['columns_name'].fillna(df_features['columns_name'].mean(), inplace=True)#填充平均数
df_features['columns_name'].fillna(df_features['columns_name'].median(),inplace=True) # 填充中位数
df_features['columns_name'].fillna(df_features['columns_name'].mode()[0], inplace=True)#填充众数

knnimputer填充：
KNNImputer：一种可靠的缺失值插补方法
建议看这个：缺失值填充的几种方法

文本数据处理

LabelEncoder编码：

from sklearn.preprocessing import LabelEncoder

for feat in ['columns_name']:
    lbl = LabelEncoder()
    lbl.fit(df_features[feat])
    df_features[feat] = lbl.transform(df_features[feat])

OneHotEncoder编码：
将分类变量装换为“哑变量矩阵”（dummy matrix）.如果DataFrame的某一列中含有K个不同的值，则可以派生出一个K列矩阵或者DataFrame(其值全为0和1)。pandas 有一个get_dummies函数可以实现该功能。
pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

import pandas as pd
df = pd.DataFrame({"key":['green','red', 'blue'],
            "data1":['a','b','c'],"sorce": [33,61,99]})
# get_dummies(data,....) 在不指定新列的列名的情况下，将以data原标签对为列名
print("-------df---------")
print(df)
df_dummies1 =pd.get_dummies(df["key"])
print('''-------pd.get_dummies(df["key"])--df_dummies1-------''')
print(df_dummies1)
#prefix参数可以给哑变量的名字加上一个前缀
df_dummies2 =pd.get_dummies(df["key"],prefix="key")
print('''---=pd.get_dummies(df["key"],prefix="key")----df_dummies2-----''')
print(df_dummies2)
#如果不指定data列的话，默认是所有的分类变量进行one_hot处理
df_dummies3 =pd.get_dummies(df)
print("-------pd.get_dummies(df)---df_dummies3------")
print(df_dummies3)
#prefix参数可以给哑变量的名字加上一个前缀,如果是多个则需要一个列参数
df_dummies4 =pd.get_dummies(df,prefix=["class","like"])
print('''-------pd.get_dummies(df,prefix=["class","like"])----df_dummies4-----''')
print(df_dummies4)
 
 
df_dummies5 =pd.get_dummies(df,columns=["key","sorce"])
print('''---=pd.get_dummies(df,columns=["key","sorce"])----df_dummies5-----''')
print(df_dummies5)

原文链接：Python 对数据one-hot编码

其他方法：

再看：AI基础：特征工程-文本特征处理

最后建议大家看一下飞桨的数据准备和特征工程讲的非常好。

丿Me丶初见灬

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
数据预处理常用操作

数据预处理常用操作数据导入数据分析查看数据大小查看数据类型，缺失值，缺失值占比查看数据相关性-热力图表示数据处理数据类型转换pd.to_numeric函数散点图观察缺失值处理数据删除文本数据处理合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入
复制链接

扫一扫