java遍历dataframe_在多节点Spark群集上运行时,Dataframe.collectAsList方法出现java-Spark问题...

创建一个新的答案来解决问题中的新细节。

在 DataFrame 上调用.map,并将逻辑放入lambda中以将一行 transformation为新行。

// Do your data manipulation in a call to `.map`,

// which will return another DataFrame.

DataFrame df2 = df.map(

// This work will be spread out across all your nodes,

// which is the real power of Spark.

r -> {

// I'm assuming the code you put in the question works,

// and just copying it here.

// Note the type parameter of with .getAs

String colVal1 = r.getAs(colName1);

String colVal2 = r.getAs(colName2);

String[] nestedValues = new String[allCols.length];

nestedValues[0]=colVal1;

nestedValues[1]=colVal2;

.

.

.

// Return a single Row

RowFactory.create(nestedValues);

}

);

// When you are done, get local results as Rows.

List localResultRows = df2.collectAsList();

https://spark.apache.org/docs/1.6.1/api/java/org/apache/spark/sql/DataFrame.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值