自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 spark学习笔记整理

搭建集群的步骤:1、解压安装包,改名2、进入conf目录修改slave.templateslaveNode02Node03Node04修改spark-env.sh.template—>env.shSPARK_MASTER_IP=node01SPARK_MASTER_PORT=7077SPARK_WORKER_CORES=3SPARK_WORKER_MEMORY=2G...

2021-05-29 14:49:13 132

原创 Spark Shuffle笔记整理

一、什么是Spark Shuffle?1、Shuffle中文意思就是“洗牌”,在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。2、在Spark中,什么情况下会发生shuffle?reduceByKey、groupByKey、sortByKey、countByKey、join等操作。3、Spark中的Shuffle包括两种:Ha...

2018-11-18 17:44:42 271 1

原创 Spark资源调度

一、资源调度1、待集群Spark集群启动成功后,Woker与Master通信,此时Worker的各种信息(IP、port等)会存在Master中的wokers集合中,其数据类型是HashSet。此时Master会为各个Worker分配资源。2、当sparksubmit向Master为Driver申请资源时,申请信息会封装在Master中的waitingDrivers集合中,此时有个Sched...

2018-11-18 00:02:31 262

原创 scala语法(二)

接上一篇的Scala语法(一)部分,继续的完成没有编辑完

2018-11-17 17:16:49 184

原创 Spark集群的搭建

一、Spark集群的四种模式1、local单机运行,一般用于测试2、yarnSpark客户端直接连接yarn3、standalonespark自带的资源调度器(默认情况下:standalone集群=spark集群)4、MesosSpark客户端直接连接Mesos运行流程:Spark Application向资源调度器(yarn,mesos,standalone)申请资源,执行任...

2018-11-17 16:04:39 153

原创 Spark学习整理之一

一、什么是SparkApache Spark是一个开源的分布式计算框架,用于处理大规模的数据。旨在快速进行数据分析、快速运行和快速开发。Spark不是由一个人开发的,而是诞生于美国加州大学伯克利分校的AMP实验室。于2010年开放源码,2012年发布了0.6.0版本,距今已有6年历史,最新版本为2.4.0。开发Spark可以使用Scala、Java、Python以及R语言。二、RDD的五大特...

2018-11-15 12:39:06 140

原创 scala语法(一)

基于JVM的编程语言ScalaScala介绍1、Scala官网6个特征① Java和scala可以无缝混编② 类型推测(自动推测类型)③ 并发和分布式(Actor类似于多线程)④ 特质trait,特征(类似java中interfaces 和 abstract结合)⑤模式匹配(类似java switch)⑥ 高阶函数(函数的参数是函数,函数的返回是函数)注:Spark中使用的是Sa...

2018-11-13 13:44:05 185

原创 Scala学习笔记整理之一

Scala安装使用1、windows安装及配置环境变量官网下载scala2.10:https://www.scala-lang.org/download/2.10.4.html下载好后安装,记住安装包路径配置环境变量(和配置jdk一样)新建SCALA_HOME编辑path变量,在后面追加:;%SCALA_HOME%\bin;%SCALA_HOME%\jre\bin如果是一下的版本...

2018-11-13 13:03:27 177

原创 Hive的优化

Hive优化核心思想把HiveSQL当做Mapreduce程序运行Hive运行方式集群模式本地运行(测试环境)#开启本地模式set hive.exec.mode.local.auto=true;满足以下条件才能真正使用本地模式①输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)②map数必须小于参数:...

2018-11-12 22:46:02 271

原创 Hive笔记整理

Hive 视图举例:select a.name,b.age from table1 a join table2 b on(a.id=b.id) => view为什么要使用别名?方便如果后期经常执行这个查询语句,每次都写麻烦可以将这么长的SQL(数据表)与视图对应映射,每次查询这个视图就是执行了长的SQL语句人的名字,名字->人 名字本身就是字,不是一个真真实实存在的人,...

2018-11-12 21:20:43 201

原创 Hive的表操作

Hive中表的类型1、内部表(受控表):当删除内部表的时候,HDFS上的数据以及元数据都会被删除2、外部表:当删除外部表的时候,HDFS上的数据不会被删除但是元数据会被删除3、临时表(测试环境)临时表的声明周期是一次会话4、分区表:将一批数据分成多个目录来存储5、分桶表:对列值取哈希值的方式,将不同数据放到不同文件中存储Hive的基本数据类型 数据类型 注释 ...

2018-11-12 20:11:02 195

原创 Yarn集群的搭建与测试

一、集群的搭建1 集群的规划 主机名 IP地址 NN-1 NN-2 DN ZK ZKFC JNN RS NameNode ...

2018-11-12 13:04:28 236

原创 Hive的搭建

Hive三种搭建方式1.Local本地(derby)元数据库derby与工具都是在本地只需将压缩包解压,在hive-site.xml做以下配置(将原信息删除)注:需要将hive-site.xml.template更名为hive-site.xmlmv hive-default.xml.template hive-site.xml<?xml version="1.0"?>

2018-11-09 17:26:49 126

原创 Spark任务调度

一、spark任务调度知识点1、Spark中的一些专业术语1.1、任务相关Application:用户写的应用程序(DriverProgram +ExecutorProgram)。Job:一个action类算子触发的操作。stage:一组任务,例如:map task。task:(thread)在集群运行时,最小的执行单元。1.2、资源相关Mstaer:资源管理主节点。Worker...

2018-11-05 22:40:21 334

原创 HTML-CSS-JavaScript

CSS 层叠样式表 Cascading Style Sheets优势:内容与表现分离网页表现统一,容易修改丰富的样式,使得页面布局更加灵活减少网页代码量,增加网页浏览速度,节省网络宽带运用独立于页面的CSS,有利于网页被搜索引擎搜索CSS内部样式标签 style标签放在文档的头部CSS行内样式表现和内容混杂在一起,行内样式会损失样式表的优势要使用行内样式,需要在相关的标签内...

2018-10-19 17:23:46 123

原创 Mapreduce原理及应用

Mapreduce原理MapReduce(以下简称MR)是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一...

2018-10-19 17:05:25 475

原创 Eclipse操作HDFS高可用集群

欢迎使用Markdown编辑器配置hadoop的插件,方便在eclipse中操作HDFS在dropins中创建plugins放入jar包 Hadoop-eclipse-plugin-2.6.0.jar重启eclipse·在右上角会出现Map/Reduce的图标如没有出现,可能是因为eclipse版本不兼容问题,可更换eclipse·版本然后双击:在输出台会同样有一个Map/Redu...

2018-10-18 17:39:27 374

原创 高可用HDFS集群原理笔记及搭建过程

HDFS高可用集群原理及搭建如何实现HDFS高可用?HDFS的高可用是HDFS持续对客户端提供读、写服务的能力,因为客户端对HDFS的读写操作之前要访问namenode服务器,客户端需要从namenode端获取元数据之后才能继续进行读、写。HDFS的高可用的关键在于nodename元数据持续可用,之前的完全分布式中的secondaryNamenode是把namenode的fsimage和edi...

2018-10-13 19:42:56 783

原创 HDFS伪分布式环境搭建

HDFS伪分布式环境搭建 首先,先介绍一下关于HDFS集群搭建的三种模式 1、 伪分布式 在一台服务器上,启动多个进程,分别表示各个角色。 2、 完全分布式 在多台服务器上,每台服务器启动不同角色的进程,使用多台服务 器组成HDFS集群 共启动4台linux系统,各个节点如下: Node01:namenode; Node02:secondarynamenode datan...

2018-10-11 12:46:18 328

原创 HDFS分布式存储系统笔记整理

HDFS分布式存储系统

2018-10-10 08:15:42 954

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除