• 我的消息
  • 我的博客
  • 我的学院
  • 我的下载
  • 我的收藏
  • 消息
  • 搜索条件:
    点击返回全部
    全部文章 > {categoryName }
    • SparkCore杂记二

      这篇博客主要讲解Spark中任务shuffle与persistence, 首先来说说shuffle洗牌,学过hadoop的同学应该都了解mapreduce,每一个mapreduce任务都要经过一次sh...

      原创
      2017-11-08 20:36:59
      42
      0
    • SparkCore杂记一

      接触Spark也有一段时间了,最开始一直都是上网看一些博客,自己搭建个虚拟机倒腾,都是一些零散的学习,回头想想还是有必要系统性的学习、理解一遍,本系列博客将会参照spark 官方文档上来一一讲解,但是...

      原创
      2017-11-08 18:01:01
      167
      0
    • kafka多线程消费及处理和手动提交处理方案设计

      kafka与其他消息队列不同的是, kafka的消费者状态由外部( 消费者本身或者类似于Zookeeper之类的外部存储 )进行维护, 所以kafka的消费就更加灵活, 但是也带来了很多的问题, 因为...

      转载
      2017-10-16 19:13:59
      423
      0
    • Kafka 0.9 新版本consumer客户端使用介绍

      翻译自:  https://www.confluent.io/blog/tutorial-getting-started-with-the-new-apache-kafka-0-9-consumer...

      转载
      2017-10-16 18:55:39
      107
      0
    • sparkStreaming+kafka+hbase实战练习一

      这个需求是是按照实际工作中的项目改写的一个例子。                业务需求: 1. 实时统计某市银行流水交易总额             ...

      原创
      2017-08-05 14:26:03
      5339
      0
    • JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 - 实例分析

      JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 - 实例分析 原文  http://josh-persistence.iteye.com/blog/2...

      转载
      2017-07-28 21:33:07
      988
      0
    • Spark调优之Shuffle调优

      shuffle调优 调优概述       大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能...

      转载
      2017-06-13 09:50:43
      177
      0
    • Spark调优之数据倾斜调优

      目录(?)[-] 前言1数据倾斜调优 调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key...

      转载
      2017-06-13 09:48:53
      160
      0
    • Spark调优之资源调优

      在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置...

      转载
      2017-06-13 09:46:02
      177
      0
    • Spark调优之开发调优

      目录(?)[-] 前言开发调优 原则一避免创建重复的RDD原则二尽可能复用同一个RDD 原则三对多次使用的RDD进行持久化 原则四尽量避免使用shuffle类算子原则五使用map-side...

      转载
      2017-06-13 09:41:02
      212
      0
  • 学院
  • 下载
  • 消息