Spark
dingyufei615
从事某医疗互联网大数据研发岗,编程语言主要Java/Scala,熟悉主流大数据计算引擎Spark及Hadoop生态圈及常用开源组件kafka,zookeeper等,熟悉ELK技术栈,Hbase,Hive,Delta等数据存储层框架,主要负责我司用户画像,内容画像相关业务的研发,参与画像数据治理及监控预警等系统的研发工作。
展开
-
[转]Spark Structured Streaming + Kafka使用笔记
这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)spark 2.3.01. 概述Structured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。可以使用Dataset/DataFrame API 来表示 streaming aggregations (流聚合), event-time windows (事件...转载 2020-10-29 14:15:46 · 1250 阅读 · 0 评论 -
Spark RDD的fold和aggregate为什么是两个API?为什么不是一个foldLeft?
大家都知道Scala标准库的List有一个用来做聚合操作的foldLeft方法。比如我定义一个公司类: 1 case class Company(name:String, children:Seq[Company]=Nil) 它有名字和子公司。然后定义几个公司: 1 val companies = List(Company("B"),Company("A"),Company("T")) 三家大公司,转载 2020-09-25 16:18:32 · 217 阅读 · 0 评论 -
[转]Spark Streaming对Exactly Once的实现原理
Exactly Once实现的整体性首先一个很重要的道理是: 整个系统对exactly once的保证,从来都不是靠系统中某一部分来实现就能搞定的,需要整个流式系统一起努力才可以实现。对Spark Streaming来说,Exactly once的实现,需要系统中三部分的整体保证:输入源 --> Spark Streaming计算 ---> 输出操作"输入源"对于exactly once的实现:Kafka的directly API其实就是在解决输入源输入数据的...转载 2020-05-18 10:51:33 · 178 阅读 · 0 评论 -
Spark Metric 指标/监测系统详解及源码分析
Metric翻译自spark的官方文档:Spark 有一个基于 Dropwizard 度量库的可配置度量系统。 这允许用户向各种接收器报告 Spark 指标,包括 HTTP、 JMX 和 CSV 文件。 度量系统是通过一个配置文件配置的,Spark 希望该文件出现在 $Spark home / conf / 度量中。 属性。 可以通过 spark.metrics.conf 配置属性指定自定义...原创 2020-03-25 10:57:52 · 1521 阅读 · 0 评论 -
记一次Spark中 Container killed by YARN for exceeding memory limits的解决过程
一、问题现象:使用sparksql调用get_json_object函数后,报如下错误:yarn容器被kill,导致任务失败,查看日志:Container killed by YARN for exceeding memory limits使用spark命令:/opt/software/spark-2.2.0-bin-hadoop2.6/bin/spark-sql \--mas...转载 2020-03-19 17:44:02 · 1070 阅读 · 0 评论 -
Spark二次调用Hive UDF异常问题解决办法
异常如下:No handler for UDF/UDAF/UDTF 'com.******.***': java.lang.ClassNotFoundException: com.***; line 1 pos 7org.apache.spark.sql.AnalysisException: No handler for UDF/UDAF/UDTF 'com.***': java.lang...原创 2020-02-21 16:30:48 · 7302 阅读 · 3 评论 -
TimeoutException: Futures timed out after [300 seconds]异常问题
caused by:java.util.concurrent.TimeoutException: Futures timed out after [300 seconds]scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:223)scala.concurrent.impl.Promise$DefaultProm...原创 2020-02-10 21:27:11 · 4438 阅读 · 0 评论 -
DataFrame转DataSet 实现存储自定义对象case class
根据介绍Spark数据集:当我们期待Spark 2.0时,我们计划对数据集进行一些激动人心的改进,特别是:...自定义编码器–虽然我们目前可以自动生成多种类型的编码器,但我们希望为自定义对象打开一个API。并尝试在Dataset导致以下错误的情况下存储自定义类型:找不到用于存储在数据集中的类型的编码器。导入sqlContext.implicits。支持基本类型(Int,String等...翻译 2020-01-16 10:09:03 · 1280 阅读 · 0 评论 -
Spark源码[1]-内存管理模型
Spark源码[1]-内存管理模型目录1.1 堆内内存1.2 Executor内部内存结构1.3 堆外内存1.4 内存动态调整机制 2 Spark1.6之前的静态内存模型 3 补充1 动态内存模型Spark1.6版本之后,默认使用动态内存。1.1 堆内内存在Yarn调度器模式中,内存的基本结构如下,会再NodeManager...转载 2019-09-06 09:49:47 · 159 阅读 · 0 评论 -
Spark运行流程及各个组件说明
基本概念l Application:应用。可以认为是多次批量计算组合起来的过程,在物理上可以表现为你写的程序包+部署配置。应用的概念类似于计算机中的程序,它只是一个蓝本,尚没有运行起来。l RDD:Resilient Distributed Datasets,弹性分布式数据集。RDD即是计算模型里的一个概念,也是你编程时用到的一种类。一个RDD可以认为是spark在执行分布式计算时的...原创 2019-08-11 23:41:02 · 450 阅读 · 0 评论 -
【秒懂StructuredStreaming】StructuredStreaming
目录一、为何要有StructuredStreaming二、StructuredStreaming的特性1、结构化流式处理2、基于Event-Time聚合&延迟数据处理3、容错性Structured Streaming是Spark新提出的一种实时流的框架,以前是Spark Streaming。那么这两者有什么区别呢,为什么有了Spark Streaming,还要提出S...转载 2019-08-11 21:31:21 · 446 阅读 · 0 评论 -
SparkSQL数据导入MySQL中MySQL的Jar包冲突解决办法
测试jar冲突案例import scala.collection.JavaConverters._object SparkStreamWordCounts { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("spark://CentOS:7077").setAppNa...原创 2019-08-11 21:12:46 · 364 阅读 · 0 评论