一次次尝试

希望你成为你想要的模样

MapReduce的Shuffle过程

MapReduce的Shuffle过程 (1).maptask优先在块文件本地启动任务,启动后根据给定的数据切片进行数据处理,各自负责一个块文件(一个分片), maptask读取数据,调用InputStream组件实现对数据一行一行的读取; (其实现类:FileInputStream,File...

2018-06-14 23:24:29

阅读数 272

评论数 0

MapReduce调优

MapReduce调优 一、调优的目的 充分的利用机器的性能,更快的完成mr程序的计算任务。甚至是在有限的机器条件下,能够支持运行足够多的mr程序。 二、调优的总体概述 从mr程序的内部运行机制,我们可以了解到一个mr程序由mapper和reducer两个阶段组成, 其中map...

2018-06-14 22:48:23

阅读数 420

评论数 0

Spark性能优化:shuffle调优

文章目录 1 shuffle调优 1.1 调优概述 1.2 ShuffleManager发展概述 1.3 HashShuffleManager运行原理 1.3.1 未经优化的HashShuffleManager 1.3.2 优化后的HashShuffleManager 1.4 SortShuffl...

2018-05-18 19:26:09

阅读数 222

评论数 0

Spark性能优化:数据倾斜调优

文章目录 1 前言 2 数据倾斜调优 2.1 调优概述 2.2 数据倾斜发生时的现象 2.3 数据倾斜发生的原理 2.4 如何定位导致数据倾斜的代码 2.4.1 某个task执行特别慢的情况 2.4.2 某个task莫名其妙内存溢出的情况 2.5 查看导致数据倾斜的key的数据分布情况 2.6 数...

2018-05-18 18:33:17

阅读数 162

评论数 0

Spark性能优化:资源调优篇

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资...

2018-05-18 18:27:48

阅读数 176

评论数 0

Spark性能优化:开发调优篇

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。   然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如...

2018-05-18 18:23:10

阅读数 181

评论数 0

Hadoop3.0有哪些实用新特性

比Spark快10倍的Hadoop3.0有哪些实用新特性?hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。Hadoop 3.0简介Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区...

2018-05-10 22:06:38

阅读数 712

评论数 0

HBase性能调优

Hbase调优 Region拆分和合并 进行预分区,从而避免自动split ,降低hbase相应速度。 如果米有提前创建分区,那么建表的时候,只有一个分区,只有一个region。 数据不断往里面写,当达到一定阈值的时候,region一分为二。会出现热点现象 服务端调优 1、Hbas...

2018-04-15 22:38:12

阅读数 1211

评论数 0

快速定位官网、开发工具、应用程序下载

集群介质下载地址 http://archive.apache.org/dist/ http://archive-primary.cloudera.com/cm5/cm/5/ https://archive.cloudera.com/cm5/redhat/ http://archive-pr...

2018-03-29 22:01:46

阅读数 93

评论数 0

第一章 可伸展的语言-为什么选择scala

摘抄:《scala编程中文版》 为什么选择scala

2019-04-24 23:24:40

阅读数 7

评论数 0

第一章 可伸展的语言-是什么让scala具有可扩展性

摘抄:《scala编程中文版》 是什么让scala具有可扩展性

2019-04-24 23:17:05

阅读数 5

评论数 0

第一章 可伸展的语言-与你一同成长的语言

摘抄:《scala编程中文版》 Scala语言的名称来自于“可伸展的语言”。之所以这样命名,是因为他被设计成随着使用者的需求而成长。你可以把Scala应用在很大范围的编程任务上,从写个小脚本到建立个大系统。1 Scala 是很容易进入的语言。它跑在标准的 Java 平台上,可以与所有的 Jav...

2019-04-24 23:15:27

阅读数 18

评论数 0

window本地MySQL忘记root密码解决

 1.以系统管理员身份运行cmd.   2.查看mysql是否已经启动,如果已经启动,就停止:net stop mysql.   3.切换到MySQL安装路径下:D:\WAMP\MySQL-5.6.36\bin;如果已经配了环境变量,可以不用切换了。   4.在命令行输入:mysqld -nt -...

2019-04-21 23:18:12

阅读数 8

评论数 0

基于索引的SQL语句优化

基于索引的SQL语句优化 1 前言 2 2 总纲 2 一避免对列的操作 3 二避免不必要的类型转换 4 三增加查询的范围限制 4 四尽量去掉"IN"、"OR" 4 五尽量去掉"<>" 5 六去掉...

2019-04-21 19:26:27

阅读数 30

评论数 0

安装 Flink集群(cluster模式)

开始安装: 在/opt/bigdata/flink下: 1、wget http://archive.apache.org/dist/flink/flink-1.6.2/flink-1.6.2-bin-hadoop28-scala_2.11.tgz 2、tar -zxvfflink-1.6.2...

2019-04-15 23:47:50

阅读数 22

评论数 0

Apache JMeter安装、配置和使用

下载安装包:http://jmeter.apache.org/download_jmeter.cgi 基础介绍:https://www.cnblogs.com/hhwu/p/9522919.html JMeter简介: Apache JMeter是100%纯JAVA桌面应用程序,是一款优...

2019-03-20 19:30:07

阅读数 72

评论数 0

redis-desktop-manager 安装

百度网盘链接:https://pan.baidu.com/s/1OLrVQs4OLWyTwchY6dCifA 提取码:a923 然后开始安装,一直往下。。。。

2019-03-18 22:46:53

阅读数 70

评论数 0

window 下 kafka 详细安装

kafka 安装,需要先安装 zookeeper。 一、安装zookeeper 下载安装包链接:http://mirrors.hust.edu.cn/apache/zookeeper/ 我下载 zookeeper-3.5.2-alpha.tar.gz http://archive.apac...

2019-03-18 20:26:18

阅读数 66

评论数 0

IDEA启动项目报错 :Error:Abnormal build process termination :解决方案

一脸懵逼,什么鬼啊,,,启动IDEA项目报错如下: Error:Abnormal build process termination: "C:\Program Files\Java\jdk1.8.0_171\bin\java.exe" -Xmx700m -Dj...

2019-03-16 07:32:29

阅读数 280

评论数 0

springcloud常见问题

Eureka Eureka Environment的配置: eureka.environment:字符串 参考文档: https://github.com/Netflix/eureka/wiki/Configuring-Eureka Eureka DataCenter的配置 e...

2019-03-13 20:43:02

阅读数 36

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭