Spark
文章平均质量分 51
小何才露尖尖角
任何时候,我对世界总有一个主观的先验判断,但是这个判断会随着世界的真实变化而随机修正,我对世界永远保持开放的态度--Thomas Bayes
展开
-
pyspark catalog介绍
catalog 是一个管理 Spark 元数据信息的接口,可以管理库、内部或外部表、函数、表列及临时视图原创 2023-08-02 10:39:36 · 317 阅读 · 0 评论 -
pyspark 判断 Hive 表是否存在
【代码】pyspark 判断 Hive 表是否存在。原创 2023-07-31 16:49:02 · 1658 阅读 · 0 评论 -
pyspark null类型 在 json.dumps(null) 之后,会变为字符串‘null‘
在将 hive 数仓数据写入 MySQL 时候,有时我们需将数据转为 json 字符串,然后再存入 MySQL。但 hive 数仓中的 null 类型遇到 json 函数之后会变为 'null' 字符串,这时我们只需在使用 json 函数之前对值进行判断即可,当值为 null 时,直接返回 null, 当值非null 时,则使用 json 函数原创 2023-04-06 11:16:35 · 446 阅读 · 0 评论 -
org.apache.spark.sql.AnalysisException: Can not create the managed table.The associated location
org.apache.spark.sql.AnalysisException: Can not create the managed table('`tmp`.`tmp_iot`'). The associated location('hdfs://nameservice1/user/hive/warehouse/tmp.db/tmp_iot') already exists.;原创 2022-03-31 17:49:52 · 4972 阅读 · 0 评论 -
理解Spark中RDD(Resilient Distributed Dataset)
文章目录1 RDD 基础1.1 分区1.2 不可变1.3 并行执行2 RDD 结构2.1 SparkContext、SparkConf2.2 Partitioner2.3 Dependencies2.4 Checkpoint(检查点)2.5 Storage Level(存储级别)2.6 Iterator(迭代函数)3 依赖关系4 RDD操作4.1 转化操作4.2 行动操作4.3 惰性求值4.4 持久化5 Spark 程序工作流程参考1 RDD 基础Spark对数据的核心抽象就是RDD(弹性分布式数据集)原创 2021-10-08 00:11:30 · 1003 阅读 · 0 评论