滴水穿石的博客

知识点总结

排序:
默认
按更新时间
按访问量

Spark学习之资源调度与任务调度的整合

文章目录 资源调度结论: 1、默认情况下,每一个Worker会为当前的Application启动一个Executor进程,并且这个Executor会使用1G内存和当前Worker所能管理的所有core。 2、如果想要在一个Worker上启动多个Executor,可以在提交Application的时...

2018-11-15 20:28:58

阅读数:11

评论数:0

Spark集群的搭建

Spark集群一、Spark集群的四种运行模式二、基于Standalone的Spark集群搭建三、基于Standalone的高可用Spark集群搭建 一、Spark集群的四种运行模式 1、Local 单机运行,一般用于开发测试。 2、Yarn Spark客户端直接连接Yarn,不需要额外构建Spa...

2018-11-14 18:38:44

阅读数:9

评论数:0

Hive学习之Hive知识点整理

Hive一、Hive简介?二、Hive的结构三、Hive的原理四、Hive的数据管理五、Hive的调优六、Hive环境搭建和部署 一、Hive简介? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供的sql查询功能,可以将sql语句转换为MapRedu...

2018-11-13 20:00:53

阅读数:11

评论数:0

Hive学习之Hive的三种搭建方式

Hive三种搭建方式 一、Local本地(derby) 元数据库derby与工具都是在本地 只需将压缩包解压,在hive-site.xml做以下配置(将原信息删除) 注:需要将hive-site.xml.template更名为hive-site.xml mv hive-default.xml.te...

2018-11-12 22:31:43

阅读数:10

评论数:0

Spark学习之RDD

文章目录一、什么是Spark二、RDD的五大特性三、解释RDD的五大特性 一、什么是Spark Apache Spark是一个开源的分布式计算框架,用于处理大规模的数据。旨在快速进行数据分析、快速运行和快速开发。Spark不是由一个人开发的,而是诞生于美国加州大学伯克利分校的AMP实验室。于201...

2018-11-10 15:00:13

阅读数:180

评论数:0

Spark学习之Spark Shuffle

文章目录一、什么是Spark Shuffle?二、HashShuffle运行原理三、Shuffle可能面临的问题?四、如何优化解决问题?五、SortShuffle运行原理 一、什么是Spark Shuffle? 1、Shuffle中文意思就是“洗牌”,在Spark中Shuffle的目的是为了保证每...

2018-11-08 22:49:33

阅读数:22

评论数:0

Yarn集群的搭建与测试

一、集群搭建 一、集群规划 主机名 IP地址 NN-1 NN-2 DN ZK ZKFC ...

2018-11-07 13:37:32

阅读数:18

评论数:0

Scala基于JVM的编程语言

一、Scala简介 Scala是将面向对象和面向函数式整合在一起,基于JVM的编程语言。它由Martin Odersk于2001开发,2004年开始运行在JVM与.Net平台之上,由于其简洁、优雅、类型安全的编程模式而受到关注。 Scala六个特征: Java和scala可以无缝混编(因为都是基...

2018-11-05 20:29:21

阅读数:187

评论数:0

Spark学习之问题整理

Stage中的一些问题: 1、stage中每一个task(管道计算模式)在什么时候落地磁盘? 如果是stage后面是action类算子: collect:将每一个管道的计算结果收集到Driver端的内存中。 saveAsTextFile:将每一个管道的计算结果写到指定记录。 count:将管道...

2018-11-04 16:21:16

阅读数:2321

评论数:0

Spark学习之Spark内核

一、Spark中的一些专业术语 任务: Application:用户写的应用程序,包括Driver Program和Executor Program。 Job:一个action类算子触发执行的操作。 stage:一组任务(task)就是一个stage。 task:(thread)在集群中运行时...

2018-11-03 22:32:08

阅读数:36

评论数:0

Hadoop生态圈之MapReduce

什么是MapReduce? MapReduce是一个分布式计算框架,以可靠,容错的方式在大型集群(数千个节点)上并行处理大量数据(多为TB级数据)。 MapReduce的主要思想是:分久必合 MapReduce的核心思想是:把相同的key分成一组,调用一次Reduce方法。 一、MapReduce...

2018-10-16 23:52:36

阅读数:30

评论数:0

基于JavaAPI对HDFS的常用操作

一、准备阶段 ①在Windows系统上配置Hadoop的环境变量 在path中添加%HADOOP_HOME%\bin ②修改用户名为root,确保对文件(文件夹)操作时有足够的权限 HADOOP_USER_NAME root ③导入jar包,并且将core-site.xml和hdfs-site...

2018-10-16 20:50:55

阅读数:21

评论数:0

HDFS的一些总结

一、Hadoop历史 Google之在2002-2004年间发布了GFS、MapReduce以及BigTable三大论文,也就是Hadoop的“三驾马车”。受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。2005年,Hadoop作为...

2018-10-16 00:50:03

阅读数:41

评论数:0

HDFS高可用完全分布式搭建步骤

一、准备阶段 分布式思想 分布式集群规划 主机名 IP地址 NN-1 NN-2 DN ZK ...

2018-10-13 00:31:00

阅读数:75

评论数:0

HDFS完全分布式搭建步骤

1.准备阶段 思路: 准备4个Linux操作系统,并配置好IP地址,将NameNode在Hadoop1节点上启动,SecondaryNameNode和DataNode在Hadoop2节点上启动,其余两个DataNode分别在Hadoop3和Hadoop4节点上启动。 ...

2018-10-11 21:12:36

阅读数:66

评论数:0

HDFS常用命令

1.上传文件: 1)hdfs dfs -put src... dest 2)hsfs dfs -copyFromLocal src... dest 3)hsfs dfs -moveFromLocal src... dest(将本地的文件移动到HDFS中) 2.创建新目录 1)hdfs d...

2018-10-11 00:15:22

阅读数:27

评论数:0

分布式存储原理

分布式存储原理 1.当HDFS集群启动之时,DataNode会向NameNode发送信息,包括Block存储位置,DataNode地址。 2.Client向NameNode汇报当前上传文件的信息(Block数量、文件上传时间、文件权限、拥有着)。 2.1 Client将大文件切割成一个个的bloc...

2018-10-10 00:26:24

阅读数:107

评论数:0

关于IO的一些总结与体会

IO流是用来处理设备与程序之间的数据传输。 按流向分为: ①输入流:OutputStream和Writer为基类。 ②输出流:InputStream和Reader为基类。 按处理的单位分为: ①字节流:InputStream基类。 ②字符流:OutputStream基类。 按流的...

2018-08-15 23:37:24

阅读数:31

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭