ZZJ_-CSDN博客

原创 spark学习笔记整理

搭建集群的步骤: 1、解压安装包，改名 2、进入conf目录修改slave.templateslave Node02 Node03 Node04 修改spark-env.sh.template—>env.sh SPARK_MASTER_IP=node01 SPARK_MASTER_PORT=7077 SPARK_WORKER_CORES=3 SPARK_WORKER_MEMORY=2G ...

2021-05-29 14:49:13 136

一、什么是Spark Shuffle？ 1、Shuffle中文意思就是“洗牌”，在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。 2、在Spark中，什么情况下会发生shuffle？ reduceByKey、groupByKey、sortByKey、countByKey、join等操作。 3、Spark中的Shuffle包括两种： Ha...

2018-11-18 17:44:42 271 1

原创 Spark资源调度

一、资源调度 1、待集群Spark集群启动成功后，Woker与Master通信，此时Worker的各种信息(IP、port等)会存在Master中的wokers集合中，其数据类型是HashSet。此时Master会为各个Worker分配资源。 2、当sparksubmit向Master为Driver申请资源时，申请信息会封装在Master 中的waitingDrivers集合中，此时有个Sched...

2018-11-18 00:02:31 265

原创 scala语法（二）

接上一篇的Scala语法(一)部分，继续的完成没有编辑完

2018-11-17 17:16:49 189

原创 Spark集群的搭建

一、Spark集群的四种模式 1、local 单机运行，一般用于测试 2、yarn Spark客户端直接连接yarn 3、standalone spark自带的资源调度器（默认情况下：standalone集群=spark集群） 4、Mesos Spark客户端直接连接Mesos 运行流程： Spark Application向资源调度器（yarn，mesos，standalone）申请资源，执行任...

2018-11-17 16:04:39 155

原创 Spark学习整理之一

一、什么是Spark Apache Spark是一个开源的分布式计算框架，用于处理大规模的数据。旨在快速进行数据分析、快速运行和快速开发。Spark不是由一个人开发的，而是诞生于美国加州大学伯克利分校的AMP实验室。于2010年开放源码，2012年发布了0.6.0版本，距今已有6年历史，最新版本为2.4.0。开发Spark可以使用Scala、Java、Python以及R语言。二、RDD的五大特...

2018-11-15 12:39:06 141

原创 scala语法（一）

基于JVM的编程语言Scala Scala介绍 1、Scala官网6个特征 ① Java和scala可以无缝混编 ② 类型推测(自动推测类型) ③ 并发和分布式（Actor类似于多线程） ④ 特质trait，特征(类似java中interfaces 和 abstract结合) ⑤模式匹配（类似java switch） ⑥ 高阶函数（函数的参数是函数，函数的返回是函数）注：Spark中使用的是Sa...

2018-11-13 13:44:05 188

原创 Scala学习笔记整理之一

Scala安装使用 1、windows安装及配置环境变量官网下载scala2.10：https://www.scala-lang.org/download/2.10.4.html 下载好后安装，记住安装包路径配置环境变量（和配置jdk一样）新建SCALA_HOME 编辑path变量，在后面追加： ;%SCALA_HOME%\bin;%SCALA_HOME%\jre\bin 如果是一下的版本...

2018-11-13 13:03:27 177

原创 Hive的优化

Hive优化核心思想把HiveSQL当做Mapreduce程序运行 Hive运行方式集群模式本地运行（测试环境） #开启本地模式 set hive.exec.mode.local.auto=true; 满足以下条件才能真正使用本地模式 ①输入数据大小必须小于参数： hive.exec.mode.local.auto.inputbytes.max(默认128MB) ②map数必须小于参数： ...

2018-11-12 22:46:02 284

原创 Hive笔记整理

Hive 视图举例： select a.name,b.age from table1 a join table2 b on(a.id=b.id) =&amp;amp;gt; view 为什么要使用别名？方便如果后期经常执行这个查询语句，每次都写麻烦可以将这么长的SQL（数据表）与视图对应映射，每次查询这个视图就是执行了长的SQL语句人的名字，名字-&amp;amp;gt;人名字本身就是字，不是一个真真实实存在的人，...

2018-11-12 21:20:43 202

原创 Hive的表操作

Hive中表的类型 1、内部表（受控表）：当删除内部表的时候，HDFS上的数据以及元数据都会被删除 2、外部表：当删除外部表的时候，HDFS上的数据不会被删除但是元数据会被删除 3、临时表（测试环境）临时表的声明周期是一次会话 4、分区表：将一批数据分成多个目录来存储 5、分桶表：对列值取哈希值的方式，将不同数据放到不同文件中存储 Hive的基本数据类型数据类型注释 ...

2018-11-12 20:11:02 206

原创 Yarn集群的搭建与测试

一、集群的搭建 1 集群的规划主机名 IP地址 NN-1 NN-2 DN ZK ZKFC JNN RS NameNode ...

2018-11-12 13:04:28 239

原创 Hive的搭建

Hive三种搭建方式 1.Local本地（derby）元数据库derby与工具都是在本地只需将压缩包解压，在hive-site.xml做以下配置（将原信息删除）注：需要将hive-site.xml.template更名为hive-site.xml mv hive-default.xml.template hive-site.xml &amp;lt;?xml version=&quot;1.0&quot;?&amp;gt;

2018-11-09 17:26:49 128

原创 Spark任务调度

一、spark任务调度知识点 1、Spark中的一些专业术语 1.1、任务相关 Application:用户写的应用程序（DriverProgram +ExecutorProgram）。 Job:一个action类算子触发的操作。 stage：一组任务，例如：map task。 task：（thread）在集群运行时，最小的执行单元。 1.2、资源相关 Mstaer：资源管理主节点。 Worker...

2018-11-05 22:40:21 336

原创 HTML-CSS-JavaScript

CSS 层叠样式表 Cascading Style Sheets 优势: 内容与表现分离网页表现统一，容易修改丰富的样式，使得页面布局更加灵活减少网页代码量，增加网页浏览速度，节省网络宽带运用独立于页面的CSS，有利于网页被搜索引擎搜索 CSS内部样式标签 style 标签放在文档的头部 CSS行内样式表现和内容混杂在一起，行内样式会损失样式表的优势要使用行内样式，需要在相关的标签内...

2018-10-19 17:23:46 125

原创 Mapreduce原理及应用

Mapreduce原理 MapReduce（以下简称MR）是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一...

2018-10-19 17:05:25 480

原创 Eclipse操作HDFS高可用集群

欢迎使用Markdown编辑器配置hadoop的插件，方便在eclipse中操作HDFS 在dropins中创建plugins 放入jar包 Hadoop-eclipse-plugin-2.6.0.jar 重启eclipse· 在右上角会出现Map/Reduce的图标如没有出现，可能是因为eclipse版本不兼容问题，可更换eclipse·版本然后双击：在输出台会同样有一个Map/Redu...

2018-10-18 17:39:27 377

原创高可用HDFS集群原理笔记及搭建过程

HDFS高可用集群原理及搭建如何实现HDFS高可用？ HDFS的高可用是HDFS持续对客户端提供读、写服务的能力，因为客户端对HDFS的读写操作之前要访问namenode服务器，客户端需要从namenode端获取元数据之后才能继续进行读、写。HDFS的高可用的关键在于nodename元数据持续可用，之前的完全分布式中的secondaryNamenode是把namenode的fsimage和edi...

2018-10-13 19:42:56 787

原创 HDFS伪分布式环境搭建

HDFS伪分布式环境搭建首先，先介绍一下关于HDFS集群搭建的三种模式 1、伪分布式在一台服务器上，启动多个进程，分别表示各个角色。 2、完全分布式在多台服务器上，每台服务器启动不同角色的进程，使用多台服务器组成HDFS集群共启动4台linux系统，各个节点如下： Node01:namenode； Node02:secondarynamenode datan...

2018-10-11 12:46:18 334

原创 HDFS分布式存储系统笔记整理

HDFS分布式存储系统

2018-10-10 08:15:42 958

qq_40262690的博客