![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 94
写轮眼之大数据
关注同名微信公众号,获取更多文章
展开
-
Apache Hudi的流批一体架构实践某宝
一、前言当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。二、 模型特征架构的演进2.1 第一代架构广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计、特征推送和特征获取模型训练。如下图所示:客户端以及服务端数据先通过统一服务Sink到HDFS上基于基HDFS数据,统计特定.原创 2021-07-03 18:59:58 · 1325 阅读 · 1 评论 -
spark之OOM常见问题梳理(一)
我想变成那陪着疲倦的你一直看海的小小的白色的椅子。—王小波一、Spark报错信息问题一1.描述 org.apache.spark.shuffle.FetchFailedException这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,非常的耗时。图片2.报错提示(1) missing output locationorg.apache.spark.shuffle.MetadataFetchFailedException: Miss原创 2021-05-19 15:09:49 · 2046 阅读 · 0 评论 -
spark堆内和堆外内存
由于Driver的内存管理较为简单,内存管理主要对Executor的内存管理进行探讨。一、堆内(On-Heap Memory)和堆外(Off-Heap Memory)内存规划 Executor作为一个JVM进程,Executor的内存管理建立在JVM的内存管理之上。Spark对堆内内存进行JVM内存管理,引入了堆外内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用;其中,堆外内存直接向操作系统申请。二、堆内内存(On-Heap Memory) 堆内内存概述:原创 2021-05-17 13:37:41 · 2518 阅读 · 0 评论