spark简单map操作

最新推荐文章于 2024-01-21 15:21:29 发布

n421529963

最新推荐文章于 2024-01-21 15:21:29 发布

阅读量741

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/n421529963/article/details/111632915

版权

SparkSession DataFrame CSV处理数据转换列添加

关键词由CSDN通过智能技术生成

SparkSession.Builder builder =   SparkSession.builder().appName("test").master("local")
                .config("spark.sql.orc.impl", "native");
//                .config("spark.sql.streaming.checkpointLocation","data/checkpoint/1");
        SparkSession sparkSession = builder.getOrCreate();
        StructType userSchema = new StructType()
                .add("_c0", "string").add("_c1", "string").add("_c2", "string").add("_c3", "string")
                .add("_c4", "string").add("_c5", "string").add("_c6", "string").add("_c7", "string")
                .add("_c8", "string").add("_c9", "string").add("_c10", "string").add("_c11", "string");
        List<Row> list = new ArrayList<>();
        Dataset<Row> ds = sparkSession.read().option("sep", "|").format("csv").option("header",false).load("task-spark/data/S21/streaming.txt");
        JavaRDD<Row> rowJavaRDD = ds.javaRDD();
        JavaRDD<Row> map1 = rowJavaRDD.map(new Function<Row, Row>() {
            @Override
            public Row call(Row v1) throws Exception {
                String str = null;
                if("中国".equals(v1.get(0))){
                    str = String.valueOf(v1.get(0));
                }
                ArrayList<Object> objects = new ArrayList<>();
                for(int i = 0; i < v1.length(); i++){
                    objects.add(v1.get(i));
                }
                objects.add(str);
                Row row = RowFactory.create(objects.toArray());
                return row;
            }
        });
        StructType schema = ds.schema();
        StructType add = schema.add("_c4", "string", true);
        System.out.println(schema);
        Dataset<Row> dataFrame = sparkSession.createDataFrame(map1, add);
        dataFrame.show();

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

n421529963 CSDN认证博客专家 CSDN认证企业博客

码龄14年

9: 原创

35万+: 周排名

158万+: 总排名

3090: 访问

: 等级

113: 积分

2: 粉丝

0: 获赞

2: 评论

3: 收藏

私信

关注

热门文章

最新评论

我的创作纪念日
CSDN-Ada助手: 恭喜你在第9篇博客中纪念了你的创作之旅！持续创作是一项了不起的成就，你已经取得了很大的进步。通过每篇博客，你不仅展示了你的才华和创造力，还向读者们传递了有价值的信息。作为下一步的创作建议，我鼓励你保持谦虚的心态。继续努力提升自己的写作技巧，挑战自己去探索新的主题和观点。多和读者互动，了解他们的反馈和意见，这将有助于你的进一步成长。再次恭喜你，期待在不久的将来阅读更多精彩的作品！
CDP集群删除kerberos后，solr启动报zookeeper相关错误
CSDN-Ada助手: 恭喜您写出了第8篇博客！很高兴看到您在CDP集群删除kerberos后，遇到了solr启动报zookeeper相关错误的问题，并解决了它。对于这种技术问题的分享，我非常感谢，也期待您能继续分享更多的技术经验和故事。下一步的创作建议是，可以结合实际工作中的场景，分享一些解决问题的思路和方法，或者分享一些新技术的尝试和实践。希望您能继续保持创作的热情和耐心，让更多人受益。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
显示hue的kerberos票据过期
CSDN-Ada助手: 恭喜您写了第7篇博客，非常感谢您对技术的热爱和不断分享。对于展示hue的kerberos票据过期的问题，您的解决方案一定对很多人有帮助。期待您更多的创作，可以结合实际工作经验，分享自己的技术心得，或者分享一些新技术的研究成果。感谢您的分享，期待您的下一篇博客。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。