大数据开发
文章平均质量分 81
fir_dameng
这个作者很懒,什么都没留下…
展开
-
IDEA本地运行Flink-java版
1、背景flink作为当前最火实时大数据框架,也想阅读其源码,并实战一下它2、具体步骤2.1 环境准备jdk1.8+ 即可 ,因为flink 大部分是Java编写的2.2 创建idea项目和普通的创建maven java项目一样,没有区别2.3 pom.xml配置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xs原创 2022-05-04 23:53:31 · 5713 阅读 · 0 评论 -
IDEA 本地运行Spark
IDEA 本地运行Spark1、背景2、环境准备3、 具体流程3.1 IDEA创建maven项目3.2 pom.xml配置3.3 Demo程序示例3.4 结果输出3.5 总结改进1、背景主要用于本地阅读Spark源码,同时也可以用于实战运行spark程序2、环境准备jdk : 1.8+scala: 2.12+ (Spark 3x要求 scala版本2.12)3、 具体流程3.1 IDEA创建maven项目File->Maven->Next注意事项:配置maven 国内镜原创 2022-05-04 17:11:15 · 3510 阅读 · 0 评论 -
Spark Sql执行原理介绍
Spark SQL整体架构从上图可见,无论是直接使用 SQL 语句还是使用 DataFrame,都会经过如下步骤转换成 DAG 对 RDD 的操作1) Parser 解析 SQL,生成 Unresolved Logical Plan在Unresolved Logical Plan中,不知道涉及表是什么类型,数据存在何处,表的结构是什么;这一步主要完成词法和语法解析,生成解析树2)由...原创 2019-05-31 10:17:03 · 1067 阅读 · 0 评论 -
SQL语句的执行顺序
上面在每条语句的前面都标明了执行顺序号.示例数据源接入From多表连接Join…on 一般连用单表处理Group by … having 一般连用Order by, limit 用于后处理总体顺序: 数据接入(from)->多表连接(on,join)->单表处理(where,group by,having => select,distinct =>...原创 2019-06-12 15:06:32 · 111 阅读 · 0 评论 -
解决Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 175 in stage 4.0 failed 8 times, most recent failure: Lost task 175.7 in stage 4.0 (TID 421, bsa100):...原创 2019-05-29 16:11:03 · 1321 阅读 · 0 评论 -
spark检查hive表中是否存在某一分区
hive表分区的概念一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。例如下图中xx.db(数据库),device_flow_report_data(表)month_id=201902:表示按月进行了分区day_id=20190203:表示按天也进行了分区分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在,...原创 2019-05-29 16:51:09 · 7051 阅读 · 0 评论 -
reduceByKey实现(key,value)生成(key,list(value))
sc.parallelize(Array(("red", "zero"), ("yellow", "one"), ("red", "two"))).groupByKey().collect.foreach(println)(red,CompactBuffer(zero, two))(yellow,CompactBuffer(one))实现red 聚合[zero,two],yellow聚合...原创 2019-06-13 15:37:52 · 4538 阅读 · 1 评论