能吃黄金-CSDN博客

原创对Zookeeper和Yarn的区别和联系的通俗理解

学习一段时间的大数据技术，总是对里面zookeeper和yarn的功能模糊不清，于是收集一些资料，帮助自己简单的理解一下。Yarn的作用Yarn是一个分布式资源调度器组件。这个组件的主要作用是在每次接收到请求后，会查看当下的各个子节点的状况，统筹出运算资源的调度方案来保证任务可以顺利执行。通常来说，Yarn所调度的资源常常包括磁盘空间的资源，内存的资源和通讯带宽的资源等。Yarn是Hado...

2019-12-13 09:35:10 1551

原创 hadoop、hbase、hive、spark分布式系统架构原理

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用户分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理hadoop、spark、Hbase、Hive、hdfs简介Hbase：是一个nosql数据库，和mongodb类似hdfs：h...

2019-12-04 11:09:50 351

原创用一个例子了解Yarn和Zookeeper之间是什么关系

Zookeeper和Yarn是一起工作的，它们一起管理资源。举例说明：在一个分布式系统上。现在有个事要办。我们要找这个系统办这个事，就要通知yarn。打个比方，yarn的master node看看这个系统里有很多node，看看谁有空，谁有能力（cpu、内存、等）来干这个事。然后把任务分配给合适的node来办这个事。这个时候系统面临一个危险。那就是在分布式系统中，failure成为常态。yar...

2019-11-28 15:20:39 801

原创 spark中的collect

所以不要轻易用collect,集群中用了collect产生的数组据说是保存在主节点中，其他节点访问不到，所以还要用到广播变量广播到其他节点，不然就会报空指针的错误。collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察，毕竟分布式数据集比较抽象。Spark的collect方法，是Action类型的一个算子，会从远程集群拉取数据到driver端。最后，将大量数据汇集到一...

2019-11-28 10:12:43 1132

原创 sortBy和sortByKey函数详解

在很多应用场景都需要对结果数据进行排序，Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark 0.9.0之后才引入的（可以参见SPARK-1063）。而sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进行说...

2019-11-27 22:46:47 1742

原创最详细理解spark中reduce和reduceByKey的区别

首先我们先讲讲两个函数在功能上的作用与区别是什么，然后我们再深入讨论两个函数在内部机理有什么不同。reduce(binary_function)reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。具体过程，RDD有1 2 3 4 5 6 7 8 9 10个元素...

2019-11-27 22:21:38 1829

原创最简单理解map和flatMap的区别

我的理解map：map方法返回的是一个object，map将流中的当前元素替换为此返回值；flatMap：flatMap方法返回的是一个stream，flatMap将流中的当前元素替换为此返回流拆解的流元素；官方解释map:Returns a stream consisting of the results of applying the given function to the ele...

2019-11-27 22:02:43 3377 2

原创 ES集群（世间美好与你环环相扣）

ES诞生那么本章学习我主要归为三大类；集群规划集群搭建集群管理一、集群规划搭建一个集群我们需要考虑如下几个问题：我们需要多大规模的集群？集群中的节点角色如何分配？如何避免脑裂问题？索引应该设置多少个分片？分片应该设置几个副本？下面我们就来分析和回答这几个问题1、我们需要多大规模的集群？需要从以下两个方面考虑：1.1 当前的数据量有多大？数...

2019-11-10 11:55:13 257

原创搭建Elasticsearch集群之前先看这篇

一、为何要搭建 Elasticsearch 集群凡事都要讲究个为什么。在搭建集群之前，我们首先先问一句，为什么我们需要搭建集群？它有什么优势呢？（1）高可用性Elasticsearch 作为一个搜索引擎，我们对它的基本要求就是存储海量数据并且可以在非常短的时间内查询到我们想要的信息。所以第一步我们需要保证的就是Elasticsearch 的高可用性，什么是高可用性呢？它通常是指，通过设计减...

2019-11-09 16:18:58 377

原创最详细的flume概念理解和配置及命令详解

1、概念flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，有可以将采集到的数据（下沉sink）输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求。通过对flume的简单配置即可实现flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适...

2019-11-09 10:04:36 1303

原创 storm集群一键启动关闭shell脚本文件

storm一键启动脚本在storm/bin目录下,touch start-storm-cluster.sh,并加上权限chmod a+x start-storm-cluster.shvi start-storm-cluster.sh这里面需要注意的是:hdp-1 hdp-2 hdp-3是我的三台虚拟机,如果名字不同需要修改此脚本必须放在storm/bin方能生效#!/bin/b...

2019-10-25 12:35:51 189

转载 Zookeeper简介与集群搭建

https://blog.csdn.net/chenbinqq/article/details/79043379

2019-10-25 11:10:11 77

原创大数据-从flume采集数据通过kafaka下沉到hive表的一个详细案列

HDFS实施前的准备安装nginx安装flume安装kafka打jar包双击package即可打成jar包在此处可以看到打成jar包的地址将jar包运行在虚拟机上我准备了四台虚拟机我将jar包...

2019-10-24 12:21:05 909 1

原创 kafka设置shell脚本文件一键启动和关闭

1.kafka的bin目录下kafka-server-stop.sh需要修改PIDS=$(ps ax | grep -i 'kafka\.Kafka' | grep java | grep -v grep | awk '{print $1}')改为PIDS=$(ps ax | grep -i 'kafka' | grep java | grep -v grep | awk '{print $...

2019-10-15 22:27:54 200

原创 flume和nginx相关配置和实现

Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增...

2019-10-15 16:22:50 474

jiayunfei521的博客