自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Spark Sql

目录   Shark Spark Sql  Hive on Spark模式 SparkSQL on Hive模式  DataFrame DataFrame创建方式  读json文件(不能是嵌套格式的json) 读取json格式的RDD 读取parquet文件创建DataFrame SaveMode指定文件保存时的模式 基于非json格式的RDD创建 反射的方式创建Data...

2018-11-18 17:42:57 162

原创 Spark Shuffle

目录   Shuffle Shuffle Write和Shuffle Read HashShuffle  普通机制Hash Shuffle 具体过程 Hash shuffle普通机制的问题  合并机制Hash Shuffle 具体过程 Hash shuffle合并机制的问题  SortShuffle  普通机制Sort Shuffle 具体过程 Bypass机制Sort...

2018-11-16 17:04:47 191

原创 Scala任务调度+资源调度

Scala任务调度+资源调度具体流程 具体流程        1)先启动Spark集群,启动成功后所有Worker节点就会向Master节点心跳反馈,而Master节点中的Workers集合也会储存worker地址信息及资源信息;   &

2018-11-13 11:13:56 562

原创 Hive及Hive安装

Hive专业术语 专业术语 1、Hive是什么 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能。 通俗讲,其实HIVE就是一个SQL解析引擎,它将SQL语句转译成M/R JOB然后在Hadoop执行,来达到快速开发的目的。拨开HIVE的神秘面纱之后来看它的表其实就是一个Hadoop的目录/文件(HIVE默认表存放路径一般都是在你的工作...

2018-11-07 08:52:22 224

原创 Spark任务调度

Spark任务调度专业术语HDFS包含层次的作用NameNodeSecondaryNameNodeDataNodeHDFS数据读取过程具体过程HDFS数据上传过程具体过程NameNode元数据持久化(将内存中的元数据储存到磁盘中)DataNode备份HDFS伪分布式搭建 专业术语        任务相关: Ap

2018-11-07 08:51:41 261

原创 Spark集群搭建

Standalone集群的架构 Spark的Standalone集群搭建的准备工作 把Spark安装包spark-1.6.3-bin-hadoop2.6.tgz拷贝到node1节点 使用tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz进行解压 修改进入conf下配置文件的名字 使用mv命令,改完名字浏览如下图所示 修改slaves配置文件内容 slaves配置文件里面...

2018-11-07 08:51:17 128

原创 Spark资源调度

Spark资源调度相关术语以Cluster方式提交具体流程以Client方式提交具体过程 相关术语        Workers:HashSet[WorkerInfo]集合,用于储存worker地址信息及资源信息   &n

2018-11-07 08:49:20 172

原创 Map/Reduce与Yarn集群的搭建

Map/ReduceMap/Reduce原理Map Task原理Reduce Task原理Hadoop 2 yarn资源调度器配置Map/Reduce节点设计详细步骤 Map/Reduce原理       &am

2018-10-16 20:38:20 219

原创 CentOS 6.5环境下搭建HDFS高可用完全分布式

CentOS 6.5环境下搭建HDFS高可用完全分布式高可用完全分布式运行原理节点设计搭建准备工作准备工作配置免密登录配置ZooKeeper文件配置Hadoop文件NameNode初始化与服务启动搭建客户端ClientEclipse配置Map/Reduce插件配置Map/Reduce插件配置Map/Reduce插件可能遇到的问题 高可用完全分布式 运行原理     &a

2018-10-13 11:46:59 348

原创 CentOS 6.5环境下搭建HDFS完全分布式

CentOS 6.5环境下搭建HDFS完全分布式准备工作配置免密登录配置Hadoop文件将配置好的Hadoop文件分发到其余节点上HDFS初始化与服务启动 准备工作        首先需要准备4台CentOS6.5虚拟机,并且将网络与JDK配置完全,如需配置JDK详见上次博客。   &

2018-10-10 20:49:01 368

原创 分布式存储:HDFS

分布式存储:HDFS大数据技术HDFS包含层次的作用NameNodeSecondaryNameNodeDataNodeHDFS数据上传过程具体过程NameNode元数据持久化(备份)DataNode备份HDFS伪分布式搭建 大数据技术 大数据即为短时间内快速的产生海量的多种多样的有价值的数据。 大数据技术包括分布式存储(HDFS适合储存大文件、Lustre适合储存小文件、……)、分布式计算(批处理...

2018-10-09 21:35:21 304

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除