2018年06月_大数据爱好者社区

转载 Spark性能优化的10大问题及其解决方案

转自: http://book.51cto.com/art/201409/453045.htm 问题1：reduce task数目不合适解决方式：需根据实际情况调节默认配置，调整方式是修改参数spark.default.parallelism。通常，reduce数目设置为core数目的2到3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太少，任务运行缓慢。问题2：shuffle磁盘IO时间...

2018-06-24 22:03:48 369

原创正则表达式规则

字符x字符 x\\反斜线字符\0n带有八进制值 0 的字符 n (0 <= n <= 7)\0nn带有八进制值 0 的字符 nn (0 <= n <= 7)\0mnn带有八进制值 0 的字符 mnn（0 <= m <= 3、0 <= n <= 7）\xhh带有十六进制值 0x 的字符 hh\uhhhh带有十六进制值 0x 的字符 hhhh\t制表符 ...

2018-06-10 12:21:36 221

转载深入解析mapreduce中shuffle的工作原理

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！定义shuffle：针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上的过程。相应上图中红色框所圈的内容。由图可见Shuffle过程横跨了map，reduce两端，所以为了方便讲解，我们在下面分为两个部分进行讲解：map端和reduce端...

2018-06-08 11:26:45 501

原创彻底理解MapReduce shuffle过程原理

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过...

2018-06-08 11:10:24 461

转载 Java的位运算符详解实例——与（&）、非（~）、或（|）、异或（^）

位运算符主要针对二进制，它包括了：“与”、“非”、“或”、“异或”。从表面上看似乎有点像逻辑运算符，但逻辑运算符是针对两个关系运算符来进行逻辑运算，而位运算符主要针对两个二进制数的位进行逻辑运算。下面详细介绍每个位运算符。1．与运算符与运算符用符号“&”表示，其使用规律如下：两个操作数中位都为1，结果才为1，否则结果为0，例如下面的程序段。public class data13{publi...

2018-06-08 10:52:44 273

原创 Mapreduce & yarn

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！特点:1、分布式并行计算2、主要核心功能：排序，默认的排序方式是按照key进行排序概念定义：1、MapReduce执行流程涉及到Client、ResourceManager、NodeManager、ApplicationMaster、Container、Task2、其中Client是提交Mapr...

2018-06-08 10:47:36 593

转载详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！前言 hadoop是分布式系统，运行在linux之上，配置起来相对复杂。对于hadoop1，很多同学就因为不能搭建正确的运行环境，导致学习兴趣锐减。不过，我有免费的学习视频下载，请点击这里。 hadoop2出来后，解决了hadoop1的几个固有缺陷，比如单点故障、资源利用率低、支...

2018-06-08 09:54:51 425

转载 Zookeeper-Zookeeper leader选举

在上一篇文章中我们大致浏览了zookeeper的启动过程，并且提到在Zookeeper的启动过程中leader选举是非常重要而且最复杂的一个环节。那么什么是leader选举呢？zookeeper为什么需要leader选举呢？zookeeper的leader选举的过程又是什么样子的？本文的目的就是解决这三个问题。首先我们来看看什么是leader选举。其实这个很好理解，leader选举就像总统选举一样...

2018-06-08 09:27:33 496

转载 Zookeeper的功能以及工作原理

Zookeeper的功能以及工作原理1.ZooKeeper是什么？ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户2.ZooKeeper提供了什么？1)文件系统2)通知机制3.Zookeeper文...

2018-06-08 09:21:43 192

原创 linux如何用fdisk命令分区

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！fdisk命令常用参数格式：fdisk [参数] 设备文件fdisk -l ，列出指定的外围设备的分区表状况fdisk 设备文件，对硬盘进行分区1 2 3例子：1.首先，再添加一块虚拟硬盘完成，打开虚拟机即可。2.用fdisk -l命令查看硬盘的详细...

2018-06-01 00:37:38 18817

小宁哥博客