pyspark 数据类型转换_如何将pyspark的rdd数据类型转化为DataFrame

简述

在用pyspark进行开发的时候,经常会遇到如何将pyspark读取的数据使用xgboost的模型进行训练,当然,如果是使用scala,可以直接使用xgboost4j,这个库里面提供了可以读取rdd的数据文件的函数接口,通过scala可以很简单的进行训练,但是对于python用户来说,如何使用pyspark和xgboost进行训练,就比较难以处理了?

本人通过对libsvm的数据进行测试,实现了一套通过pyspark读取数据,xgboost训练的流程.

主要的思路是,首先,读取libsvm的数据.然后,将pipelineRDD数据转化为pyspark的DataFrame的数据类型,最后,通过pyspark中DataFrame的数据类型提供的函数,将pyspark中的DataFrame转化为pandas中的DataFrame的数据类型.

代码介绍

1)读取libsvm数据类型

data = MLUtils.loadLibSVMFile(sc,'{}://{}'.format(FLAGS.file_path, FLAGS.source_path))

# split data to train , test

(trainingData, testData) = data.randomSplit([0.7, 0.3])

2)转化label

def label_rdd_to_dataframe(sqlContext, data):

label = data.map(lambda x: x.label)

label_row = Row('label')

label_rdd = label.map(lambda r: label_row(r))

label_DF = sqlContext.createDataFrame(label_rdd)

return label_DF.toPandas()

3)转化features

def features_rdd_to_dataframe(sqlContext, data):

features = data.map(lambda x: Vectors.dense(x.features.toArray()))

attribute_str = ['attributes[{}]'.format(i) for i in range(len(features.take(1)[0]))]

features_rdd = features.map(lambda attributes: [float(eval(value)) for value in attribute_str])

features_DF = sqlContext.createDataFrame(features_rdd)

return features_DF.toPandas()

4)训练xgboost

# transform train data

label_train_DF = label_rdd_to_dataframe(sqlContext, trainingData)

features_train_DF = features_rdd_to_dataframe(sqlContext,trainingData)

train_data = xgb.DMatrix(features_train_DF, label=label_train_DF)

# transform test data

label_test_DF = label_rdd_to_dataframe(sqlContext, testData)

features_test_DF = features_rdd_to_dataframe(sqlContext, testData)

test_data = xgb.DMatrix(features_test_DF, label= label_test_DF)

# params

param_dict = {'eta':FLAGS.eta,

"max_depth":FLAGS.max_depth,

"silent":FLAGS.silent,

"objective":FLAGS.objective,

"lambda":FLAGS.xgb_lambda,

"nthread":FLAGS.nthread}

evallist = [(test_data, 'eval'), (train_data, 'train')]

num_round = FLAGS.num_round

# train

model = xgb.train(param_dict,

train_data,

num_round,

evallist)

完整代码链接:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值