先按照示例代码过一遍,然后完成下列题目
现在在py文件中 一次性处理data数据中所有的连续变量和离散变量
1. 读取data数据
2. 对离散变量进行one-hot编码
3. 对独热编码后的变量转化为int类型
4. 对所有缺失值进行填充
过程:
1. 读取data数据
import pandas as pd
data = pd.read_csv(r"C:\Users\22864\Desktop\python60-days-challenge-master\data.csv")
2. 对离散变量进行one-hot编码
#找到离散型数据
discrect_lists = []
for discrect_feature in data.columns:
if data[discrect_feature].dtype == "object":
discrect_lists.append(discrect_feature)
print(discrect_lists)
#对数据进行独热编码
data = pd.get_dummies(data,columns=discrect_lists,drop_first=True)
data.columns
#独热编码后产生了新的特征名,需要找出新特征名
data2 = pd.read_csv(r"C:\Users\22864\Desktop\python60-days-challenge-master\data.csv")
list_final = []
for i in data.columns:
if i not in data2.columns:
list_final.append(i)
#对新特证名bool,进行类型转化int
for i in list_final:
data[i] = data[i].astype(int)
4. 对所有缺失值进行填充
#利用均值填充缺失值
data.isnull().sum()
for i in data.columns:
if data[i].isnull().sum() > 0:
mean_value = data[i].mean()
data[i].fillna(mean_value,inplace=True)
data.isnull().sum()