- 博客(7)
- 收藏
- 关注
原创 scala日常使用笔记(持续更新)
一. 跳出循环|打破当前循环背景:有些时候我们需要控制循环的跳出,达到一定逻辑需要停止或者跳出循环,接下来会给大家详细讲述下如何实现1.1跳出单层循环1.1.1 无循环代码块的循环打破 /** * 调用 break 方法 * 有两种方式: * fun1 : 导入相关的pkg,然后直接调用 break方法 * import scala.util.control.Breaks.{break,breakable} * while(true){ *
2022-01-25 11:19:37 360
原创 airflow backfill参数详解
airflow backfill参数详解官网地址:https://airflow.apache.org/docs/apache-airflow/stable/cli-and-env-variables-ref.html#cli一 常用子参数-s ,–start-date 重刷该日期的任务(闭区间)-e , --end-date 重刷任务的结束日期(开区间)-i , --ignore-dependencies 忽略上游依赖任务–reset_dagruns 清空当前dag的状态,
2022-01-13 13:47:57 1403 1
原创 Spark踩坑日记
Spark日记一 spark-sql元数据踩坑踩坑背景:工作需要我一直常开一个spark-sql进程,然后做了一个需求是重刷某个表的分区数据,重刷任务是在airflow调度的,此时已经有两个spark-sql进程了,刷新完毕后在我常开的spark-sql中去访问该分区数据,报文件找不到的异常(忘记截图),这个文件在分区路径下确实不存在,但是分区下是有数据的。然后重启spark-sql,问题解决。个人猜测猜测是元数据引起,每个spark-sql会cache一份metadata,并且每个spark-s
2022-01-12 11:19:19 1436
原创 日期转换与时间戳转换(spark与persto的区别)
日期转换与时间戳转换注释:时间戳)是没有时区的概念的1 spark1.1时区设置set spark.sql.session.timeZone=GMT+8; --设置为东八区时间set spark.sql.session.timeZone=UTC; --设置为UTC时间1.2时间戳格式化为日期from_unixtime(floor(ts/1000),'yyyy-MM-dd')--注释,使用此方法转换时间时,默认使用的是集群的时区(时区设置参考1.1)--次函数的时间戳为10位的1.3时
2022-01-12 10:38:32 6436 1
原创 HIVE日常使用笔记
1 hive一次性删除多个分区数据-----SQL------alter table tranods.name drop if exists partition (dt='20220110'),partition (dt='20220111'),partition (dt='20220109')----结果展示-----Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j2.proper
2022-01-12 10:27:24 719
原创 Flink从入门到放弃
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言Flink是一个流批一体处理框架官网链接:Flink官网提示:以下是本篇文章正文内容,下面案例可供参考一、Flink初体验?在IDEA上创建一个自己的flink程序1.引入依赖库代码如下(示例):<dependency> <groupId>org.a..
2022-01-11 16:08:23 797 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人