离散特征的独热编码
先按照示例代码过一遍,然后完成下列题目
现在在py文件中 一次性处理data数据中所有的连续变量和离散变量
1.读取data数据
2.对离散变量进行one-hot编码
3.对独热编码后的变量转化为int类型
4.对所有缺失值进行填充
注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看
注意此时你可以借助下面的调试控制台 来进行值的查看
注意:这里区分离散变量仅仅通过object类型,实际中还需要结合对数据的认识,这里为了方便没有考虑现实意义。
import pandas as pd
data = pd.read_csv(r'D:\桌面\研究项目\打卡文件\Python基本操作1---10天\Python60DaysChallenge-main\Python60DaysChallenge-main\data.csv')
discrete_lists=[]
for discrete_features in data.columns:
if data[discrete_features].dtype == 'object':
discrete_lists.append(discrete_features)
date=pd.get_dummies(data,columns=discrete_lists,drop_first=True)
data.columns
date2=pd.read_csv(r'D:\桌面\研究项目\打卡文件\Python基本操作1---10天\Python60DaysChallenge-main\Python60DaysChallenge-main\data.csv')
list_final=[]
for i in data.columns:
if i not in date2.columns:
list_final.append(i)
list_final
for i in list_final:
date[i]=date[i].astype(int)
date.head()
data.dtypes
data.isnull().sum()
for i in data.columns:
if data[i].isnull().sum()>=0:
mean_value=data[i].mean()
data[i].fillna(mean_value,inplace=True)
data.isnull().sum()
今天学习了很多,学会了怎么找到离散型的特征并进行独热编码。学习了很多函数,自己纯手打了代码并运行成功,过得很充实的一天。