Spark
文章平均质量分 94
spark相关的技术分享和经验总结
╭⌒若隐_RowYet——大数据
小时候,看宫崎骏的动画,不记得是哪一部,只记得那个小孩奔跑着说:“我长大了要去布宜诺斯艾利斯,寻找回忆的地方”;
从那时起,我便把布宜诺斯艾利斯列为毕生奋斗的目标,去那里寻找我失落的过去。不知从何时起,圣华塔尼欧取代了布宜诺斯艾利斯。
当回忆渐渐失去温度,不能再温暖我心,取而代之的是伤害,我选择信仰圣华塔尼欧,寻找新生。
展开
-
Hive从入门到放弃——Hive与其他技术的结合之spark on hive(十七)
背 景原创 2020-12-14 10:45:18 · 399 阅读 · 0 评论 -
Spark从入门到放弃——Spark2.4.7安装和启动(二)
Spark版本 Spark是Apache开源的顶级项目,官网地址,目前也一直不断更新迭代,截至本博客发布时间(20201202)最新版本是Spark 3.0.1 released (Sep 08, 2020),因为公司目前生产用的是Spark2.4.7,所以后续的教程都是以Spark2.4.7为主; 讲解版本:Spark2.4.7 工欲善其事,必先利其器!这里就讲解下Spark的安装与启动;安装准备 Spark从入门到放弃——初始Spark(一)说到,Spark只是计算框架,取代的是Ma原创 2020-12-14 00:57:24 · 3187 阅读 · 2 评论 -
Spark从入门到放弃——初识Spark(一)
Spark版本 Spark是Apache开源的顶级项目,官网地址,目前也一直不断更新迭代,截至本博客发布时间(20201202)最新版本是Spark 3.0.1 released (Sep 08, 2020),因为公司目前生产用的是Spark2.3.3,所以后续的教程都是以Spark2.3.3为主; 讲解版本:Spark2.3.3什么是Spark Apache Spark is a fast and general-purpose cluster computing system.原创 2020-12-09 11:46:10 · 877 阅读 · 1 评论 -
项目实战——Spark将Hive表的数据写入需要用户名密码认证的ElasticSearch(Java版本)
目 录项目实战——将Hive表的数据直接导入ElasticSearch 此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本) 此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!原创 2020-11-30 18:03:34 · 2446 阅读 · 0 评论 -
项目实战——钉钉报警校验ElasticSearch和Hive数据仓库内的数据质量(Java版本)
目 录项目实战——将Hive表的数据直接导入ElasticSearch 此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本) 此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!原创 2020-10-24 22:54:31 · 939 阅读 · 0 评论 -
项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)
目 录项目实战——将Hive表的数据直接导入ElasticSearch 此篇文章不用写代码,简单粗暴,但是相对没有那么灵活;底层采用MapReduce计算框架,导入速度相对较慢!项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本) 此篇文章需要Java代码,实现功能和篇幅类似,直接Java一站式解决Hive内用Spark取数,新建ES索引,灌入数据,并且采用ES别名机制,实现ES数据更新的无缝更新,底层采用Spark计算框架,导入速度相对文章1的做法较快的多!原创 2020-10-24 21:31:12 · 2985 阅读 · 7 评论 -
spark debug org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow.
背景 今天在spark-shell临时性导出300万数数据生成csv文件的时候,其中我启动spark-shell的语句如下;# 用yarn模式运行spark,client模式提交任务,运行在etl队列,分配4个executors 每个1核 2G内存spark-shell --master yarn --deploy-mode client --executor-memory 2G --executor-cores 1 --num-executors 4 --queue etl 生成临时性csv原创 2020-05-29 19:21:42 · 773 阅读 · 0 评论 -
{SparkConf,SparkContext,HiveContext}和{SparkSession}的爱恨情仇详解
场 景 手写Spark的时候,每个程序的主入口都会用到SparkConf,SparkContext,HiveContext或者SparkSession,那么这三者之间有什么联系呢? 首先,带Context (SparkContext,HiveContext等,后续简称Context)关键字和SparkSession是Spark程序的主入口,SparkConf是加载环境配置信息,举个不恰当...原创 2020-04-26 19:58:18 · 820 阅读 · 0 评论