自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 spark学习笔记整理

搭建集群的步骤: 1、解压安装包,改名 2、进入conf目录 修改slave.templateslave Node02 Node03 Node04 修改spark-env.sh.template—>env.sh SPARK_MASTER_IP=node01 SPARK_MASTER_PORT=7077 SPARK_WORKER_CORES=3 SPARK_WORKER_MEMORY=2G ...

2021-05-29 14:49:13 136

原创 Spark Shuffle笔记整理

一、什么是Spark Shuffle? 1、Shuffle中文意思就是“洗牌”,在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。 2、在Spark中,什么情况下会发生shuffle? reduceByKey、groupByKey、sortByKey、countByKey、join等操作。 3、Spark中的Shuffle包括两种: Ha...

2018-11-18 17:44:42 271 1

原创 Spark资源调度

一、资源调度 1、待集群Spark集群启动成功后,Woker与Master通信,此时Worker的各种信息(IP、port等)会存在Master中的wokers集合中,其数据类型是HashSet。此时Master会为各个Worker分配资源。 2、当sparksubmit向Master为Driver申请资源时,申请信息会封装在Master 中的waitingDrivers集合中,此时有个Sched...

2018-11-18 00:02:31 265

原创 scala语法(二)

接上一篇的Scala语法(一)部分,继续的完成没有编辑完

2018-11-17 17:16:49 189

原创 Spark集群的搭建

一、Spark集群的四种模式 1、local 单机运行,一般用于测试 2、yarn Spark客户端直接连接yarn 3、standalone spark自带的资源调度器(默认情况下:standalone集群=spark集群) 4、Mesos Spark客户端直接连接Mesos 运行流程: Spark Application向资源调度器(yarn,mesos,standalone)申请资源,执行任...

2018-11-17 16:04:39 155

原创 Spark学习整理之一

一、什么是Spark Apache Spark是一个开源的分布式计算框架,用于处理大规模的数据。旨在快速进行数据分析、快速运行和快速开发。Spark不是由一个人开发的,而是诞生于美国加州大学伯克利分校的AMP实验室。于2010年开放源码,2012年发布了0.6.0版本,距今已有6年历史,最新版本为2.4.0。 开发Spark可以使用Scala、Java、Python以及R语言。 二、RDD的五大特...

2018-11-15 12:39:06 141

原创 scala语法(一)

基于JVM的编程语言Scala Scala介绍 1、Scala官网6个特征 ① Java和scala可以无缝混编 ② 类型推测(自动推测类型) ③ 并发和分布式(Actor类似于多线程) ④ 特质trait,特征(类似java中interfaces 和 abstract结合) ⑤模式匹配(类似java switch) ⑥ 高阶函数(函数的参数是函数,函数的返回是函数) 注:Spark中使用的是Sa...

2018-11-13 13:44:05 188

原创 Scala学习笔记整理之一

Scala安装使用 1、windows安装及配置环境变量 官网下载scala2.10:https://www.scala-lang.org/download/2.10.4.html 下载好后安装,记住安装包路径 配置环境变量(和配置jdk一样) 新建SCALA_HOME 编辑path变量,在后面追加: ;%SCALA_HOME%\bin;%SCALA_HOME%\jre\bin 如果是一下的版本...

2018-11-13 13:03:27 177

原创 Hive的优化

Hive优化核心思想 把HiveSQL当做Mapreduce程序运行 Hive运行方式 集群模式 本地运行(测试环境) #开启本地模式 set hive.exec.mode.local.auto=true; 满足以下条件才能真正使用本地模式 ①输入数据大小必须小于参数: hive.exec.mode.local.auto.inputbytes.max(默认128MB) ②map数必须小于参数: ...

2018-11-12 22:46:02 284

原创 Hive笔记整理

Hive 视图 举例: select a.name,b.age from table1 a join table2 b on(a.id=b.id) => view 为什么要使用别名?方便 如果后期经常执行这个查询语句,每次都写麻烦 可以将这么长的SQL(数据表)与视图对应映射,每次查询这个视图就是执行了长的SQL语句 人的名字,名字->人 名字本身就是字,不是一个真真实实存在的人,...

2018-11-12 21:20:43 202

原创 Hive的表操作

Hive中表的类型 1、内部表(受控表):当删除内部表的时候,HDFS上的数据以及元数据都会被删除 2、外部表:当删除外部表的时候,HDFS上的数据不会被删除但是元数据会被删除 3、临时表(测试环境)临时表的声明周期是一次会话 4、分区表:将一批数据分成多个目录来存储 5、分桶表:对列值取哈希值的方式,将不同数据放到不同文件中存储 Hive的基本数据类型 数据类型 注释 ...

2018-11-12 20:11:02 206

原创 Yarn集群的搭建与测试

一、集群的搭建 1 集群的规划 主机名 IP地址 NN-1 NN-2 DN ZK ZKFC JNN RS NameNode ...

2018-11-12 13:04:28 239

原创 Hive的搭建

Hive三种搭建方式 1.Local本地(derby) 元数据库derby与工具都是在本地 只需将压缩包解压,在hive-site.xml做以下配置(将原信息删除) 注:需要将hive-site.xml.template更名为hive-site.xml mv hive-default.xml.template hive-site.xml <?xml version="1.0"?>

2018-11-09 17:26:49 128

原创 Spark任务调度

一、spark任务调度知识点 1、Spark中的一些专业术语 1.1、任务相关 Application:用户写的应用程序(DriverProgram +ExecutorProgram)。 Job:一个action类算子触发的操作。 stage:一组任务,例如:map task。 task:(thread)在集群运行时,最小的执行单元。 1.2、资源相关 Mstaer:资源管理主节点。 Worker...

2018-11-05 22:40:21 336

原创 HTML-CSS-JavaScript

CSS 层叠样式表 Cascading Style Sheets 优势: 内容与表现分离 网页表现统一,容易修改 丰富的样式,使得页面布局更加灵活 减少网页代码量,增加网页浏览速度,节省网络宽带 运用独立于页面的CSS,有利于网页被搜索引擎搜索 CSS内部样式 标签 style 标签放在文档的头部 CSS行内样式 表现和内容混杂在一起,行内样式会损失样式表的优势 要使用行内样式,需要在相关的标签内...

2018-10-19 17:23:46 125

原创 Mapreduce原理及应用

Mapreduce原理 MapReduce(以下简称MR)是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一...

2018-10-19 17:05:25 480

原创 Eclipse操作HDFS高可用集群

欢迎使用Markdown编辑器 配置hadoop的插件,方便在eclipse中操作HDFS 在dropins中创建plugins 放入jar包 Hadoop-eclipse-plugin-2.6.0.jar 重启eclipse· 在右上角会出现Map/Reduce的图标 如没有出现,可能是因为eclipse版本不兼容问题,可更换eclipse·版本 然后双击:在输出台会同样有一个Map/Redu...

2018-10-18 17:39:27 377

原创 高可用HDFS集群原理笔记及搭建过程

HDFS高可用集群原理及搭建 如何实现HDFS高可用? HDFS的高可用是HDFS持续对客户端提供读、写服务的能力,因为客户端对HDFS的读写操作之前要访问namenode服务器,客户端需要从namenode端获取元数据之后才能继续进行读、写。HDFS的高可用的关键在于nodename元数据持续可用,之前的完全分布式中的secondaryNamenode是把namenode的fsimage和edi...

2018-10-13 19:42:56 787

原创 HDFS伪分布式环境搭建

HDFS伪分布式环境搭建 首先,先介绍一下关于HDFS集群搭建的三种模式 1、 伪分布式 在一台服务器上,启动多个进程,分别表示各个角色。 2、 完全分布式 在多台服务器上,每台服务器启动不同角色的进程,使用多台服务 器组成HDFS集群 共启动4台linux系统,各个节点如下: Node01:namenode; Node02:secondarynamenode datan...

2018-10-11 12:46:18 334

原创 HDFS分布式存储系统笔记整理

HDFS分布式存储系统

2018-10-10 08:15:42 958

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除