- 博客(11)
- 收藏
- 关注
原创 Spark Sql
目录 Shark Spark Sql Hive on Spark模式 SparkSQL on Hive模式 DataFrame DataFrame创建方式 读json文件(不能是嵌套格式的json) 读取json格式的RDD 读取parquet文件创建DataFrame SaveMode指定文件保存时的模式 基于非json格式的RDD创建 反射的方式创建Data...
2018-11-18 17:42:57 162
原创 Spark Shuffle
目录 Shuffle Shuffle Write和Shuffle Read HashShuffle 普通机制Hash Shuffle 具体过程 Hash shuffle普通机制的问题 合并机制Hash Shuffle 具体过程 Hash shuffle合并机制的问题 SortShuffle 普通机制Sort Shuffle 具体过程 Bypass机制Sort...
2018-11-16 17:04:47 191
原创 Scala任务调度+资源调度
Scala任务调度+资源调度具体流程 具体流程        1)先启动Spark集群,启动成功后所有Worker节点就会向Master节点心跳反馈,而Master节点中的Workers集合也会储存worker地址信息及资源信息;   &
2018-11-13 11:13:56 562
原创 Hive及Hive安装
Hive专业术语 专业术语 1、Hive是什么 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能。 通俗讲,其实HIVE就是一个SQL解析引擎,它将SQL语句转译成M/R JOB然后在Hadoop执行,来达到快速开发的目的。拨开HIVE的神秘面纱之后来看它的表其实就是一个Hadoop的目录/文件(HIVE默认表存放路径一般都是在你的工作...
2018-11-07 08:52:22 224
原创 Spark任务调度
Spark任务调度专业术语HDFS包含层次的作用NameNodeSecondaryNameNodeDataNodeHDFS数据读取过程具体过程HDFS数据上传过程具体过程NameNode元数据持久化(将内存中的元数据储存到磁盘中)DataNode备份HDFS伪分布式搭建 专业术语        任务相关: Ap
2018-11-07 08:51:41 261
原创 Spark集群搭建
Standalone集群的架构 Spark的Standalone集群搭建的准备工作 把Spark安装包spark-1.6.3-bin-hadoop2.6.tgz拷贝到node1节点 使用tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz进行解压 修改进入conf下配置文件的名字 使用mv命令,改完名字浏览如下图所示 修改slaves配置文件内容 slaves配置文件里面...
2018-11-07 08:51:17 128
原创 Spark资源调度
Spark资源调度相关术语以Cluster方式提交具体流程以Client方式提交具体过程 相关术语        Workers:HashSet[WorkerInfo]集合,用于储存worker地址信息及资源信息   &n
2018-11-07 08:49:20 172
原创 Map/Reduce与Yarn集群的搭建
Map/ReduceMap/Reduce原理Map Task原理Reduce Task原理Hadoop 2 yarn资源调度器配置Map/Reduce节点设计详细步骤 Map/Reduce原理       &am
2018-10-16 20:38:20 219
原创 CentOS 6.5环境下搭建HDFS高可用完全分布式
CentOS 6.5环境下搭建HDFS高可用完全分布式高可用完全分布式运行原理节点设计搭建准备工作准备工作配置免密登录配置ZooKeeper文件配置Hadoop文件NameNode初始化与服务启动搭建客户端ClientEclipse配置Map/Reduce插件配置Map/Reduce插件配置Map/Reduce插件可能遇到的问题 高可用完全分布式 运行原理     &a
2018-10-13 11:46:59 348
原创 CentOS 6.5环境下搭建HDFS完全分布式
CentOS 6.5环境下搭建HDFS完全分布式准备工作配置免密登录配置Hadoop文件将配置好的Hadoop文件分发到其余节点上HDFS初始化与服务启动 准备工作        首先需要准备4台CentOS6.5虚拟机,并且将网络与JDK配置完全,如需配置JDK详见上次博客。   &
2018-10-10 20:49:01 368
原创 分布式存储:HDFS
分布式存储:HDFS大数据技术HDFS包含层次的作用NameNodeSecondaryNameNodeDataNodeHDFS数据上传过程具体过程NameNode元数据持久化(备份)DataNode备份HDFS伪分布式搭建 大数据技术 大数据即为短时间内快速的产生海量的多种多样的有价值的数据。 大数据技术包括分布式存储(HDFS适合储存大文件、Lustre适合储存小文件、……)、分布式计算(批处理...
2018-10-09 21:35:21 304
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人