Java当中使用TreeMap进行WordCount并且排序 注:JDK要使用1.8以上的package com.lyl.it;import static com.lyl.it.Common.getValueComparator;import java.util.ArrayList;import java.util.Collections;import java.util.List;import java.util.Map;import...
Spark的RDD操作和描述_2 本次博客分发三大部分一,Spark的RDD用JAVA的实现二,Spark的RDD的说明三,Spark的Scala的实现1, Cartesian算子1.1,Java代码实现package com.lyl.it;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkCon...
Flume的描述和使用 一,Flume的描述1、Flume的概念Flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到HDFS,Kafka,MySql;简单来说flume就是收集日志的。 2、Event的概念 Flume中event的相关概念:Flume的核心是把数据从数据源(source)收集过来,在将收集到的数据送到指定的目的地(sink)。为了保证输送...
Spark共享变量 Spark共享变量的描述(http://spark.apache.org/docs/1.6.3/programming-guide.html#shared-variables) Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluste...
Strom的描述和安装 一,Strom的特点1,架构:1.1,Nimbus1.2,Supervisor1.3,Worker2.2,编程模型:2.1,DAG2.2,Spout2.3,Bolt3,数据传输:3.1,Zmq Zmq也是开源的消息传递的框架,虽然叫mq,但它并不是一个message queue,而是一个封装的比较好的3.2,Netty netty是NIO...
Kafka的描述和安装 一,Kafka的特性1,消息列队的特点2,生产者消费者模式3,先进先出(FIFO)顺序保证4,可靠性保证 4.1,自己不丢数据 4.2,消费者不丢数据:“至少一次,严格一次”5,至少一次就是可能会有两次,会重6,严格一次机制就会负责一点 二,Kafka的架构1,producer:消息生存者2,consumer:消息消费者3,broker:...
Spark的RDD操作和描述_1 本次博客分发三大部分一,Spark的RDD用JAVA的实现二,Spark的RDD的说明三,Spark的Scala的实现1,Map算子1.1 Java代码实现package com.lyl.it;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;impo...
Spark DAG优化的解读 一,Spark专业术语的解析1,Application基于Spark的用户程序,包含了driver程序和集群上的executor2,Driver Program运行main函数并且新建SparkContext的程序3,Cluster Manager在集群上获取资源的外部服务(例如standalone,Mesos,Yarn)4,Worker Node是集群中任何可以运行用代码的节点5...
Spark RDD容错率描述 1,Spark RDD如果其中的RDD计算错误,重算它会找与之前的RDD2,Spark RDD如果RDD做了缓存策略,计算错误的RDD重算就会从缓存里面找3,Spark RDD如果Lineage过长对RDD做doCheckpoint(),计算错误的RDD重算就会从磁盘里面找到...
Spark缓存策略的优化 一,Spark缓存优化的方案class StorageLevel private( private var _useDisk:Boolean,//缓存磁盘 private var _useMemory:Boolean,//缓存内存 private var _useOffHead:Boolean,//缓存远离堆内存 private var _deserialized:Bool...
Spark运行时程序调度 一,Spark运行时程序调度 1,Spark应用程序会在一个物理节点上有驱动程序(Driver) 2,驱动程序(Driver)会分发每个tasks到Worker节点 3,Worker节点就会返回result到Dirver节点二,Spark程序运行流程 1,分布式文件系统(File system)--加载数据集(RDD) 2,transform...
Spark RDD的概念 Resilient Distributed Dataset :弹性分布式数据集五大特性:1,A list of partitions 是由一系列一片连续的数据组成的; 一个partitions只能是在一个节点上; 一个节点可以有多个partitions; 每个partitions的数据是不一样的;2,A function for computing each split 一般情...
Spark并不都是基于内存计算 大多数的人会认为Spark都是基于内存的计算的,但是基于如下两个情况,Spark会落地于磁盘1,Spark避免不了shuffle2,如果数据过大(比服务器的内存还大)也会落地于磁盘...
Hadoop角色的作用 NameNode(NN)作用:主要是接受客户端的读写服务但同时也保存metadate信息。 NameNode保存metadate信息包括 1,文件owership和permissions 2,文件包含哪些块 3,Block保存在哪个DataNod...
如何编写高效的SQL 1,在select子句中只指定必须的列,不要滥用*2,避免在索引列上用函数或表达式避免在索引列上用函数或表达式3,避免使用前置通配符4,若可以用union all,就避免用union若可以用union all,就避免用union5,避免对索引列用not,<>,!=6,尽量用where代替having(需要过滤分组结果时,尽量用Where而非having子句,但where子句中不能使用分...
MapReduce计算框架 下面是MapReduce的流程架构图:下面是MapReduce简单的word count的流程下面是MapReduce简单的word count的代码1,主类import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;im...
Spark on Yarn和MapReduce on Yarn区别 Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.X(包括YARN和MapReduce)是一致的。Hadoop2.X自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用了开源软件Akka,该软件实现了Actor模型,性能非常高。尽管二者在server端...
Hadoop2.X中的描述 一,Hadoop 2.x产生背景1,Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题2,HDFS存在的问题 NameNode单点故障,难以应用于在线场景 NameNode压力过大,且内存受限,影响系统扩展性3,MapReduce存在的问题 JobTracker单点故障 JobTracker访问压力大,影响系统扩展性 难以支持除...
Spark的安装和测试 部署是环境为3台服务器 ,里面安装了相关的hadoop集群,安装的spark1.6.3总共分为如下安装方式1,单机模式测试安装2,Standalone集群模式3,Standalone集群HA模式4,Yarn集群模式 一,单机模式测试安装1,解压安装包[root@hadoop01 bigdata]# pwd/home/tools/bigdata[root@h...