自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 多线程之消费者生产者问题

问题引出 在线程操作中的一个经典案例就是消费者与生产者模型,生产者不断生产,消费者不断取走生产者生产的产品。 未经过处理的代码如下 public class Main { public static void main(String[] args) { Info info = new Info(); Producer producer = new Producer(info); ...

2019-05-28 15:44:46 130

转载 Kafka 设计与原理详解

转载自:https://blog.csdn.net/suifeng3051/article/details/48053965 本文综合了我之前写的kafka相关文章,可作为一个全面了解学习kafka的培训学习资料。 1 转载请注明出处 : 本文链接 1.1 背景历史 当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战: 如何收集...

2019-05-17 10:49:46 123

转载 HBase中的RowKey以及热点问题

转载自:https://blog.csdn.net/qq_31598113/article/details/71278857 一、Hbase的表组成:一个表可以理解成是行的集合,行(记录)是列族的集合,列族是列的集合。 (1) 列族column family:它是column的集合,在创建表的时候就指定,不能频繁修改。值得注意的是,列族的数量越少越好,因为过多的列族相互之间会影响,生产环境中的列族...

2019-05-17 10:19:51 858

转载 Hive性能优化

转载自:https://blog.csdn.net/mrlevo520/article/details/76339075 前言 今天电话面试突然被涉及到hive上有没有做过什么优化,当时刚睡醒,迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚,这里顺便转载一篇并来做一下总结 介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜...

2019-05-14 22:22:41 102

转载 Spark面对OOM问题的解决方法及优化总结

本文转载自: http://blog.csdn.net/yhb315279058/article/details/51035631     Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出shuffle后内存溢出    map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions...

2019-05-01 08:46:35 206

转载 spark性能优化:数据倾斜调优

本文转载自:https://blog.csdn.net/LW_GHY/article/details/51419877 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象   1、绝大多数task执行得都非常快,但个别t...

2019-04-30 21:45:33 243

转载 spark性能优化:shuffle调优

本文转载自:https://blog.csdn.net/LW_GHY/article/details/51419760 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发...

2019-04-30 21:43:47 185

转载 spark性能调优:开发调优

本文转载自:https://blog.csdn.net/LW_GHY/article/details/51420027 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。   然而,通过Spark开发出高性能的大数据计算作业,并不...

2019-04-30 21:41:36 138

转载 spark性能调优:资源优化

本文转载自:https://blog.csdn.net/LW_GHY/article/details/51419977 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致...

2019-04-30 21:38:18 135

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除