排序:
默认
按更新时间
按访问量

CDH 5.7.2 的Hive tez0.71 安装测试报如下错误是为什么?

hive> set hive.execution.engine=tez;hive> use tuoming;OKTime taken: 1.751 secondshive> select count(*) from temp_stu...

2018-05-04 15:58:24

阅读数:60

评论数:0

Spark的RDD操作和描述_2

本次博客分发三大部分 一,Spark的RDD用JAVA的实现 二,Spark的RDD的说明 三,Spark的Scala的实现 1, Cartesian算子 1.1,Java代码实现 package com.lyl.it; import java.util.Arrays; impor...

2018-08-02 15:55:23

阅读数:8

评论数:0

Flume的描述和使用

一,Flume的描述 1、Flume的概念 Flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到HDFS,Kafka,MySql;简单来说flume就是收集日志的。  2、Event的概念    Flume中event的相关概念:Flume的核...

2018-07-26 09:55:28

阅读数:28

评论数:0

Spark共享变量

Spark共享变量的描述(http://spark.apache.org/docs/1.6.3/programming-guide.html#shared-variables)   Normally, when a function passed to a Spark operation (su...

2018-07-25 10:19:10

阅读数:2747

评论数:0

Strom的描述和安装

一,Strom的特点 1,架构: 1.1,Nimbus 1.2,Supervisor 1.3,Worker 2.2,编程模型: 2.1,DAG 2.2,Spout 2.3,Bolt 3,数据传输: 3.1,Zmq          Zmq也是开源的消息传递的框架,虽然叫mq,但它并不是一个m...

2018-07-23 23:11:01

阅读数:16

评论数:0

Kafka的描述和安装

一,Kafka的特性 1,消息列队的特点 2,生产者消费者模式 3,先进先出(FIFO)顺序保证 4,可靠性保证    4.1,自己不丢数据    4.2,消费者不丢数据:“至少一次,严格一次” 5,至少一次就是可能会有两次,会重 6,严格一次机制就会负责一点   二,Kafka的...

2018-07-23 12:10:57

阅读数:106

评论数:0

Spark的RDD操作和描述_1

本次博客分发三大部分 一,Spark的RDD用JAVA的实现 二,Spark的RDD的说明 三,Spark的Scala的实现 1,Map算子 1.1 Java代码实现 package com.lyl.it; import java.util.Arrays; import java....

2018-07-19 11:14:50

阅读数:45

评论数:0

Spark DAG优化的解读

一,Spark专业术语的解析 1,Application基于Spark的用户程序,包含了driver程序和集群上的executor 2,Driver Program运行main函数并且新建SparkContext的程序 3,Cluster Manager在集群上获取资源的外部服务(例如sta...

2018-07-15 16:15:08

阅读数:31

评论数:0

Spark RDD容错率描述

1,Spark RDD如果其中的RDD计算错误,重算它会找与之前的RDD2,Spark RDD如果RDD做了缓存策略,计算错误的RDD重算就会从缓存里面找3,Spark RDD如果Lineage过长对RDD做doCheckpoint(),计算错误的RDD重算就会从磁盘里面找到...

2018-07-14 16:44:53

阅读数:35

评论数:0

Spark缓存策略的优化

一,Spark缓存优化的方案class StorageLevel private( private var _useDisk:Boolean,//缓存磁盘 private var _useMemory:Boolean,//缓存内存 private var _useOffHead:...

2018-07-14 09:12:22

阅读数:37

评论数:0

Spark运行时程序调度

一,Spark运行时程序调度       1,Spark应用程序会在一个物理节点上有驱动程序(Driver)       2,驱动程序(Driver)会分发每个tasks到Worker节点       3,Worker节点就会返回result到Dirver节点二,Spark程序运行流程      ...

2018-07-13 22:41:52

阅读数:27

评论数:0

Spark RDD的概念

Resilient Distributed Dataset :弹性分布式数据集五大特性:1,A list of partitions   是由一系列一片连续的数据组成的;   一个partitions只能是在一个节点上;   一个节点可以有多个partitions;   每个partitions的...

2018-07-11 21:59:51

阅读数:322

评论数:0

Spark并不都是基于内存计算

大多数的人会认为Spark都是基于内存的计算的,但是基于如下两个情况,Spark会落地于磁盘1,Spark避免不了shuffle2,如果数据过大(比服务器的内存还大)也会落地于磁盘...

2018-07-11 21:06:48

阅读数:61

评论数:0

Hadoop角色的作用

NameNode(NN)作用:主要是接受客户端的读写服务但同时也保存metadate信息。                     NameNode保存metadate信息包括                    1,文件owership和permissions                 ...

2018-07-10 20:27:31

阅读数:51

评论数:0

如何编写高效的SQL

1,在select子句中只指定必须的列,不要滥用*2,避免在索引列上用函数或表达式避免在索引列上用函数或表达式3,避免使用前置通配符4,若可以用union all,就避免用union若可以用union all,就避免用union5,避免对索引列用not,<&g...

2018-07-09 13:02:15

阅读数:13

评论数:0

MapReduce计算框架

下面是MapReduce的流程架构图:下面是MapReduce简单的word count的流程下面是MapReduce简单的word count的代码1,主类import org.apache.hadoop.conf.Configuration; import org.apache.hadoop....

2018-07-09 11:26:13

阅读数:21

评论数:0

Spark on Yarn和MapReduce on Yarn区别

  Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.X(包括YARN和MapReduce)是一致的。Hadoop2.X自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache S...

2018-07-09 10:04:05

阅读数:36

评论数:0

Hadoop2.X中的描述

一,Hadoop 2.x产生背景1,Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题2,HDFS存在的问题     NameNode单点故障,难以应用于在线场景     NameNode压力过大,且内存受限,影响系统扩展性3,MapReduce存在的问题     J...

2018-07-08 10:03:57

阅读数:45

评论数:0

HDFS读写流程

2018-07-07 22:52:55

阅读数:8

评论数:0

Spark的安装和测试

部署是环境为3台服务器 ,里面安装了相关的hadoop集群,安装的spark1.6.3 总共分为如下安装方式 1,单机模式测试安装 2,Standalone集群模式 3,Standalone集群HA模式 4,Yarn集群模式   一,单机模式测试安装 1,解压安装包 [root...

2018-07-07 18:21:08

阅读数:102

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭