- 博客(5)
- 收藏
- 关注
原创 Hive基本操作
EXTERNAL关键字创建外部表。外部表在进行表删除时,只删除元数据,表数据不会删除。内部表进行表删除时,元数据和表数据都会被删除。
2023-09-20 21:52:53 82 1
原创 Hive数据类型
例如,如果某个列的数据类型是MAP,其中键->值对是’first’->’John’和’last’->’Doe’,那么可以通过字段名[‘last’]获取最后一个元素。例如,如果某个列的数据类型是STRUCT{first STRING, last STRING},那么第1个元素可以通过字段.first来引用。数组是一组具有相同类型和名称的变量的集合。这些变量称为数组的元素,每个数组元素都有一个编号,编号从零开始。例如,数组值为[‘John’, ‘Doe’],那么第2个元素可以通过数组名[1]进行引用。
2023-09-19 23:07:17 73
原创 Flink跟Spark Streaming区别
JobGraph提交给JobManager进行处理,生成ExecutionGraph,ExecutionGraph分发给TaskManager执行。TaskManager执行任务形成物理执行图(框架中没有实际存在物理执行图,是执行起来后的一个概念)。Spark Streaming :连续不断的生成微小的数据批次,构建有向无环图DAG。Flink支持注入时间、事件时间、处理时间。Flink的Checkpoint基于2PC提交(tow-phase commit),可以实现恰好一次。Spark只支持处理时间。
2023-09-08 14:03:15 596 1
原创 Flink介绍
实际开发中,一般场景都可以使用Flink SQL完成开发,一些不好通过SQL实现的、复杂的场景使用DataStream/DataSet API完成开发。接收Client提交的JobGraph,负责任务的划分:将JobGraph细分为ExcutionGraph然后划分给TaskManger执行ExcutionGraph、资源管理、Checkpoint协调管理、故障转移、任务重试。TaskManager:接收JobManger划分的Task,将Task交给其拥有的Slot执行、Checkpoint执行。
2023-09-06 14:31:49 79 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人