大数据笔记整理
文章平均质量分 84
ZZJ_
这个作者很懒,什么都没留下…
展开
-
spark学习笔记整理
搭建集群的步骤:1、解压安装包,改名2、进入conf目录修改slave.templateslaveNode02Node03Node04修改spark-env.sh.template—>env.shSPARK_MASTER_IP=node01SPARK_MASTER_PORT=7077SPARK_WORKER_CORES=3SPARK_WORKER_MEMORY=2G...原创 2021-05-29 14:49:13 · 159 阅读 · 0 评论 -
Spark资源调度
一、资源调度1、待集群Spark集群启动成功后,Woker与Master通信,此时Worker的各种信息(IP、port等)会存在Master中的wokers集合中,其数据类型是HashSet。此时Master会为各个Worker分配资源。2、当sparksubmit向Master为Driver申请资源时,申请信息会封装在Master中的waitingDrivers集合中,此时有个Sched...原创 2018-11-18 00:02:31 · 273 阅读 · 0 评论 -
scala语法(二)
接上一篇的Scala语法(一)部分,继续的完成没有编辑完原创 2018-11-17 17:16:49 · 530 阅读 · 0 评论 -
Spark集群的搭建
一、Spark集群的四种模式1、local单机运行,一般用于测试2、yarnSpark客户端直接连接yarn3、standalonespark自带的资源调度器(默认情况下:standalone集群=spark集群)4、MesosSpark客户端直接连接Mesos运行流程:Spark Application向资源调度器(yarn,mesos,standalone)申请资源,执行任...原创 2018-11-17 16:04:39 · 164 阅读 · 0 评论 -
Spark学习整理之一
一、什么是SparkApache Spark是一个开源的分布式计算框架,用于处理大规模的数据。旨在快速进行数据分析、快速运行和快速开发。Spark不是由一个人开发的,而是诞生于美国加州大学伯克利分校的AMP实验室。于2010年开放源码,2012年发布了0.6.0版本,距今已有6年历史,最新版本为2.4.0。开发Spark可以使用Scala、Java、Python以及R语言。二、RDD的五大特...原创 2018-11-15 12:39:06 · 149 阅读 · 0 评论 -
Hive笔记整理
Hive 视图举例:select a.name,b.age from table1 a join table2 b on(a.id=b.id) => view为什么要使用别名?方便如果后期经常执行这个查询语句,每次都写麻烦可以将这么长的SQL(数据表)与视图对应映射,每次查询这个视图就是执行了长的SQL语句人的名字,名字->人 名字本身就是字,不是一个真真实实存在的人,...原创 2018-11-12 21:20:43 · 208 阅读 · 0 评论 -
Hive的表操作
Hive中表的类型1、内部表(受控表):当删除内部表的时候,HDFS上的数据以及元数据都会被删除2、外部表:当删除外部表的时候,HDFS上的数据不会被删除但是元数据会被删除3、临时表(测试环境)临时表的声明周期是一次会话4、分区表:将一批数据分成多个目录来存储5、分桶表:对列值取哈希值的方式,将不同数据放到不同文件中存储Hive的基本数据类型 数据类型 注释 ...原创 2018-11-12 20:11:02 · 235 阅读 · 0 评论 -
Spark Shuffle笔记整理
一、什么是Spark Shuffle?1、Shuffle中文意思就是“洗牌”,在Spark中Shuffle的目的是为了保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。2、在Spark中,什么情况下会发生shuffle?reduceByKey、groupByKey、sortByKey、countByKey、join等操作。3、Spark中的Shuffle包括两种:Ha...原创 2018-11-18 17:44:42 · 317 阅读 · 1 评论 -
Yarn集群的搭建与测试
一、集群的搭建1 集群的规划 主机名 IP地址 NN-1 NN-2 DN ZK ZKFC JNN RS NameNode ...原创 2018-11-12 13:04:28 · 249 阅读 · 0 评论 -
Spark任务调度
一、spark任务调度知识点1、Spark中的一些专业术语1.1、任务相关Application:用户写的应用程序(DriverProgram +ExecutorProgram)。Job:一个action类算子触发的操作。stage:一组任务,例如:map task。task:(thread)在集群运行时,最小的执行单元。1.2、资源相关Mstaer:资源管理主节点。Worker...原创 2018-11-05 22:40:21 · 366 阅读 · 0 评论 -
scala语法(一)
基于JVM的编程语言ScalaScala介绍1、Scala官网6个特征① Java和scala可以无缝混编② 类型推测(自动推测类型)③ 并发和分布式(Actor类似于多线程)④ 特质trait,特征(类似java中interfaces 和 abstract结合)⑤模式匹配(类似java switch)⑥ 高阶函数(函数的参数是函数,函数的返回是函数)注:Spark中使用的是Sa...原创 2018-11-13 13:44:05 · 484 阅读 · 0 评论 -
Scala学习笔记整理之一
Scala安装使用1、windows安装及配置环境变量官网下载scala2.10:https://www.scala-lang.org/download/2.10.4.html下载好后安装,记住安装包路径配置环境变量(和配置jdk一样)新建SCALA_HOME编辑path变量,在后面追加:;%SCALA_HOME%\bin;%SCALA_HOME%\jre\bin如果是一下的版本...原创 2018-11-13 13:03:27 · 201 阅读 · 0 评论 -
Hive的优化
Hive优化核心思想把HiveSQL当做Mapreduce程序运行Hive运行方式集群模式本地运行(测试环境)#开启本地模式set hive.exec.mode.local.auto=true;满足以下条件才能真正使用本地模式①输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)②map数必须小于参数:...原创 2018-11-12 22:46:02 · 293 阅读 · 0 评论 -
Hive的搭建
Hive三种搭建方式1.Local本地(derby)元数据库derby与工具都是在本地只需将压缩包解压,在hive-site.xml做以下配置(将原信息删除)注:需要将hive-site.xml.template更名为hive-site.xmlmv hive-default.xml.template hive-site.xml<?xml version="1.0"?>原创 2018-11-09 17:26:49 · 154 阅读 · 0 评论 -
Mapreduce原理及应用
Mapreduce原理MapReduce(以下简称MR)是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一...原创 2018-10-19 17:05:25 · 508 阅读 · 0 评论 -
HDFS分布式存储系统笔记整理
HDFS分布式存储系统原创 2018-10-10 08:15:42 · 993 阅读 · 0 评论 -
高可用HDFS集群原理笔记及搭建过程
HDFS高可用集群原理及搭建如何实现HDFS高可用?HDFS的高可用是HDFS持续对客户端提供读、写服务的能力,因为客户端对HDFS的读写操作之前要访问namenode服务器,客户端需要从namenode端获取元数据之后才能继续进行读、写。HDFS的高可用的关键在于nodename元数据持续可用,之前的完全分布式中的secondaryNamenode是把namenode的fsimage和edi...原创 2018-10-13 19:42:56 · 796 阅读 · 0 评论 -
HDFS伪分布式环境搭建
HDFS伪分布式环境搭建 首先,先介绍一下关于HDFS集群搭建的三种模式 1、 伪分布式 在一台服务器上,启动多个进程,分别表示各个角色。 2、 完全分布式 在多台服务器上,每台服务器启动不同角色的进程,使用多台服务 器组成HDFS集群 共启动4台linux系统,各个节点如下: Node01:namenode; Node02:secondarynamenode datan...原创 2018-10-11 12:46:18 · 340 阅读 · 0 评论