关闭

kafka多线程消费及处理和手动提交处理方案设计

kafka与其他消息队列不同的是, kafka的消费者状态由外部( 消费者本身或者类似于Zookeeper之类的外部存储 )进行维护, 所以kafka的消费就更加灵活, 但是也带来了很多的问题, 因为客户端消费超时被判定挂掉而消费者重新分配分区, 导致重复消费, 或者客户端挂掉而导致重复消费等问题. 本文内容简介 kafka的消费者有很多种不同的用法及模型. * 本文着重探讨0.9版本...
阅读(19) 评论(0)

Kafka 0.9 新版本consumer客户端使用介绍

翻译自:  https://www.confluent.io/blog/tutorial-getting-started-with-the-new-apache-kafka-0-9-consumer-client/ kafka最初时开发时, 所带的producer和consumer client都是Scala所写. 我们逐渐发现这些API具有一些限制. high-level的api支持co...
阅读(13) 评论(0)

sparkStreaming+kafka+hbase实战练习一

这个需求是是按照实际工作中的项目改写的一个例子。                业务需求: 1. 实时统计某市银行流水交易总额                                    2. 实时统计某市银行某地区的流水交易总额                                    3. 每隔10s统一次每个地区近一年内的交易总额...
阅读(5014) 评论(0)

JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 - 实例分析

JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 - 实例分析 原文  http://josh-persistence.iteye.com/blog/2161848 第一部分:工具介绍部分: 现实企业级Java开发中,有时候我们会碰到下面这些问题: OutOfMemoryError,内存不足 内存泄...
阅读(312) 评论(0)

Spark调优之Shuffle调优

shuffle调优 调优概述       大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占...
阅读(134) 评论(0)

Spark调优之数据倾斜调优

目录(?)[-] 前言1数据倾斜调优 调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况 2数据倾斜的解决方案 解决方案一使用Hive ETL预处理数据解决方案二过滤少数导致倾斜的key解决方案三提高shuffle操作的并行度解决方案四两阶段聚合局部聚合全局...
阅读(131) 评论(0)

Spark调优之资源调优

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...
阅读(143) 评论(0)

Spark调优之开发调优

目录(?)[-] 前言开发调优 原则一避免创建重复的RDD原则二尽可能复用同一个RDD 原则三对多次使用的RDD进行持久化 原则四尽量避免使用shuffle类算子原则五使用map-side预聚合的shuffle操作原则六使用高性能的算子原则七广播大变量原则八使用Kryo优化序列化性能原则九优化数据结构 1、前言       在大数据计算领域,...
阅读(178) 评论(0)

spark 内存管理

从Spark 1.6版本开始,Spark采用Unified Memory Management这样一种新的内存管理模型。 Spark中的内存使用分为两部分:执行(execution)与存储(storage)。执行内存主要用于shuffles、joins、sorts和aggregations,存储内存则用于缓存或者跨节点的内部数据传输。 在Spark 1.6之前,这两部分内存的分配是静态的,...
阅读(205) 评论(0)

Spark 中shuffle原理与调优

shuffle调优 调优概述       大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占...
阅读(175) 评论(0)
175条 共18页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:126685次
    • 积分:2260
    • 等级:
    • 排名:第17446名
    • 原创:76篇
    • 转载:99篇
    • 译文:0篇
    • 评论:5条
    文章分类
    最新评论