- 博客(9)
- 收藏
- 关注
原创 多线程之消费者生产者问题
问题引出 在线程操作中的一个经典案例就是消费者与生产者模型,生产者不断生产,消费者不断取走生产者生产的产品。 未经过处理的代码如下 public class Main { public static void main(String[] args) { Info info = new Info(); Producer producer = new Producer(info); ...
2019-05-28 15:44:46
130
转载 Kafka 设计与原理详解
转载自:https://blog.csdn.net/suifeng3051/article/details/48053965 本文综合了我之前写的kafka相关文章,可作为一个全面了解学习kafka的培训学习资料。 1 转载请注明出处 : 本文链接 1.1 背景历史 当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战: 如何收集...
2019-05-17 10:49:46
123
转载 HBase中的RowKey以及热点问题
转载自:https://blog.csdn.net/qq_31598113/article/details/71278857 一、Hbase的表组成:一个表可以理解成是行的集合,行(记录)是列族的集合,列族是列的集合。 (1) 列族column family:它是column的集合,在创建表的时候就指定,不能频繁修改。值得注意的是,列族的数量越少越好,因为过多的列族相互之间会影响,生产环境中的列族...
2019-05-17 10:19:51
858
转载 Hive性能优化
转载自:https://blog.csdn.net/mrlevo520/article/details/76339075 前言 今天电话面试突然被涉及到hive上有没有做过什么优化,当时刚睡醒,迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚,这里顺便转载一篇并来做一下总结 介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜...
2019-05-14 22:22:41
102
转载 Spark面对OOM问题的解决方法及优化总结
本文转载自: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions...
2019-05-01 08:46:35
206
转载 spark性能优化:数据倾斜调优
本文转载自:https://blog.csdn.net/LW_GHY/article/details/51419877 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别t...
2019-04-30 21:45:33
243
转载 spark性能优化:shuffle调优
本文转载自:https://blog.csdn.net/LW_GHY/article/details/51419760 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发...
2019-04-30 21:43:47
185
转载 spark性能调优:开发调优
本文转载自:https://blog.csdn.net/LW_GHY/article/details/51420027 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。 然而,通过Spark开发出高性能的大数据计算作业,并不...
2019-04-30 21:41:36
138
转载 spark性能调优:资源优化
本文转载自:https://blog.csdn.net/LW_GHY/article/details/51419977 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致...
2019-04-30 21:38:18
135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人