Spark读取iceberg表进行处理后写入hdfs

gegeyanxin

于 2024-01-23 10:49:02 发布

阅读量372

点赞数 8

文章标签： iceberg Spark spark SQL hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gegeyanxin/article/details/135765922

版权

Sparksession，SparkSQL真香，比RDD，dataframe好写多了。

当然，也可以直接按后面的df直接写。

package XXX
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.internal.Logging
import org.apache.spark.sql.{Dataset, SaveMode, SparkSession}

object adsDataToHDFS extends Logging{
  case class adsInfo(adId: Long, settlementType: Int, billing_type: Int, ad_campaign_id: Long, app_id: String)

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName(this.getClass.getName).enableHiveSupport().getOrCreate()
    import spark.implicits._
    val catalog = args(0)
    val targetPath = args(1)
    val fileSystem = FileSystem.get(spark.sparkContext.hadoopConfiguration)
    val path = new Path(targetPath)
    if (fileSystem.exists(path)) {
      fileSystem.delete(new Path(targetPath), true)
    }

    val adsInfoDF: Dataset[adsInfo] = spark.sql(
      s"""
         |select
         |       cast(b.id as bigint) as adId,
         |       a.settlement_type as settlementType,
         |       a.billing_type,
         |       a.ad_campaign_id,
         |       a.app_id
         |from (select id,settlement_type,billing_type,ad_campaign_id,app_id from $catalog.ad_dim.dim_ad_group) a join
         |(select id,ad_group_id from $catalog.ad_dim.dim_ad_creative) b on a.id=b.ad_group_id
         |""".stripMargin).as[adsInfo]

    adsInfoDF.rdd.map(f=>f.adId+","+f.settlementType+","+f.billing_type+","+f.ad_campaign_id+","+f.app_id)
      .repartition(1)
      .saveAsTextFile(targetPath)

//    adsInfoDF.repartition(1).write.mode(SaveMode.Overwrite)
//      .csv(targetPath)

  }
}

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Spark读取iceberg表进行处理后写入hdfs

Sparksession，SparkSQL真香，比RDD，dataframe好写多了。当然，也可以直接按后面的df直接写。
复制链接

扫一扫

gegeyanxin

CSDN认证博客专家 CSDN认证企业博客

码龄6年

97: 原创

2万+: 周排名

2万+: 总排名

16万+: 访问

: 等级

1745: 积分

52: 粉丝

104: 获赞

24: 评论

247: 收藏

私信

关注

热门文章

分类专栏

工具 12篇
Linux 3篇
计算机基础 1篇
ES 3篇
faust 1篇
hive 2篇
神经网络 1篇
C/C++ 5篇
J
JAVA_SE 16篇
类的封装
继承 1篇
UML图
Mysql 6篇
JAVA_EE 4篇
problem solve 5篇
Hadoop问题解决 11篇
排序 1篇
算法 5篇
hadoop 5篇
鸡汤 1篇
Spark 6篇
scala 2篇
leetCode 14篇
剑指offer 6篇

最新评论

Flink消费pubsub问题
gegeyanxin: 试试long呢
Flink消费pubsub问题
weixin_39716941: 我这边pubsub设置了架构，一些decimal datetime的时间类型都会导致我数据无法推送到pubsub，您这边有遇到过么
Flink消费pubsub问题
gegeyanxin: [code=java] DataStream<SomeObject> dataStream = (...); SerializationSchema<SomeObject> serializationSchema = (...); SinkFunction<SomeObject> pubsubSink = PubSubSink.newBuilder() .withSerializationSchema(serializationSchema) .withProjectName("project") .withSubscriptionName("subscription") .build() dataStream.addSink(pubsubSink); [/code] 我看官网上有例子，照着应该很好改。
Flink消费pubsub问题
weixin_39716941: 我这边想实现flink sink pubsub的逻辑有案例么
spark参数调优各参数的含义
iHearter: spark.cross.dc.inputs.location.prefix.substitute.enabled这个参数什么意思？我没搜到呀

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。