spark使用java代码实现foreachPartition

最新推荐文章于 2021-03-13 07:57:22 发布

weixin_30813225

最新推荐文章于 2021-03-13 07:57:22 发布

阅读量2.1k

点赞数

文章标签： java 大数据 json

原文链接：http://www.cnblogs.com/xiandong/p/10419312.html

版权

如果数据太大直接用dataframe转list内存会不够，所以可以通过foreachPartition遍历读取

System.setProperty("hadoop.home.dir","h:\\hadoop2.3.7");
string mastor="local"
string name="wordcount"+system.currentTimeMillis()
sparkSeesion spark=sparkSeesion.builder().appName(neme).master(mastor).getOrCreate();
Data<Row> dataset=spark.read().json("src/j.json")

Dataset<String> jsons=dataset.toJSON();
JavaRDD<String> rdd=json.javaRDD();

rdd.foreachPartition(new VoidFunction<Iterator<String>>() {
            
 @Override
 public void call(Iterator<String> iter) throws Exception {
          while(iter.hasNext()) {
              String next=iter.next();
              System.out.println("获取"+next);
          }
                
      }
 });

参考https://blog.csdn.net/wyqwilliam/article/details/81142324

转载于:https://www.cnblogs.com/xiandong/p/10419312.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30813225

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark使用java代码实现foreachPartition

如果数据太大直接用dataframe转list内存会不够，所以可以通过foreachPartition遍历读取System.setProperty("hadoop.home.dir","h:\\hadoop2.3.7");string mastor="local"string name="wordcount"+system.currentTimeMillis()sparkSee...
复制链接

扫一扫