adult数据集的转换


本文主要介绍python对adult数据集的中的字符串转化为数值类型的数据,并保存为csv文件。
首先UCI 数据集的下载地址:http://www.ics.uci.edu/~mlearn/MLRepository.html
Step1:首先要导入一些必要的包
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from collections import defaultdict
step2:数据处理
df = pd.read_csv('adult.csv') //读取csv文件
print  df.shape      //可以查看该数据的大小
X = df.drop('dataClass', axis=1) //提取标签
y = df.dataClass    //原本数据集里面的属性为class ,但是python报错 所以改成了dataClass  就不报错了  可能class与某些东西冲突了吧。
Step3:将非数值列转换为数值列
d = defaultdict(LabelEncoder)
X_trans = X.apply(lambda x: d[x.name].fit_transform(x))
X_trans.head()
step4:保存为csv文件
经过上面的函数转换后得到的数据X_trans的格式是pandas.DataFrame格式的,所以这里进行另存为需要一个函数就可以。
X_trans.to_csv(’adultData.csv’,encoding=’utf-8’,inde=’False’)
此时已将数据保存为adultData.csv
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值