a18033860865-CSDN博客

原创 HIVE UDF函数开发流程

HIVE UDF函数开发流程。

2022-07-26 11:05:49 775 1

一. 跳出循环|打破当前循环背景：有些时候我们需要控制循环的跳出，达到一定逻辑需要停止或者跳出循环，接下来会给大家详细讲述下如何实现1.1跳出单层循环1.1.1 无循环代码块的循环打破 /** * 调用 break 方法 * 有两种方式： * fun1 ：导入相关的pkg,然后直接调用 break方法 * import scala.util.control.Breaks.{break,breakable} * while(true){ *

2022-01-25 11:19:37 360

原创 airflow backfill参数详解

airflow backfill参数详解官网地址：https://airflow.apache.org/docs/apache-airflow/stable/cli-and-env-variables-ref.html#cli一常用子参数-s ，–start-date 重刷该日期的任务（闭区间）-e , --end-date 重刷任务的结束日期（开区间）-i , --ignore-dependencies 忽略上游依赖任务–reset_dagruns 清空当前dag的状态，

2022-01-13 13:47:57 1403 1

原创 Spark踩坑日记

Spark日记一 spark-sql元数据踩坑踩坑背景：工作需要我一直常开一个spark-sql进程，然后做了一个需求是重刷某个表的分区数据，重刷任务是在airflow调度的，此时已经有两个spark-sql进程了，刷新完毕后在我常开的spark-sql中去访问该分区数据，报文件找不到的异常（忘记截图），这个文件在分区路径下确实不存在，但是分区下是有数据的。然后重启spark-sql，问题解决。个人猜测猜测是元数据引起，每个spark-sql会cache一份metadata，并且每个spark-s

2022-01-12 11:19:19 1436

原创日期转换与时间戳转换（spark与persto的区别）

日期转换与时间戳转换注释：时间戳）是没有时区的概念的1 spark1.1时区设置set spark.sql.session.timeZone=GMT+8; --设置为东八区时间set spark.sql.session.timeZone=UTC; --设置为UTC时间1.2时间戳格式化为日期from_unixtime(floor(ts/1000),'yyyy-MM-dd')--注释，使用此方法转换时间时，默认使用的是集群的时区（时区设置参考1.1）--次函数的时间戳为10位的1.3时

2022-01-12 10:38:32 6436 1

原创 HIVE日常使用笔记

1 hive一次性删除多个分区数据-----SQL------alter table tranods.name drop if exists partition (dt='20220110'),partition (dt='20220111'),partition (dt='20220109')----结果展示-----Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j2.proper

2022-01-12 10:27:24 719

原创 Flink从入门到放弃

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言Flink是一个流批一体处理框架官网链接：Flink官网提示：以下是本篇文章正文内容，下面案例可供参考一、Flink初体验？在IDEA上创建一个自己的flink程序1.引入依赖库代码如下（示例）：<dependency> <groupId>org.a..

2022-01-11 16:08:23 797 1

a18033860865的博客