- 博客(11)
- 收藏
- 关注
原创 Spark Sql
目录 SharkSpark Sql Hive on Spark模式SparkSQL on Hive模式 DataFrameDataFrame创建方式 读json文件(不能是嵌套格式的json)读取json格式的RDD读取parquet文件创建DataFrameSaveMode指定文件保存时的模式基于非json格式的RDD创建反射的方式创建Data...
2018-11-18 17:42:57 185
原创 Spark Shuffle
目录 ShuffleShuffle Write和Shuffle ReadHashShuffle 普通机制Hash Shuffle具体过程Hash shuffle普通机制的问题 合并机制Hash Shuffle具体过程Hash shuffle合并机制的问题 SortShuffle 普通机制Sort Shuffle具体过程Bypass机制Sort...
2018-11-16 17:04:47 224
原创 Scala任务调度+资源调度
Scala任务调度+资源调度具体流程具体流程       1)先启动Spark集群,启动成功后所有Worker节点就会向Master节点心跳反馈,而Master节点中的Workers集合也会储存worker地址信息及资源信息;  &
2018-11-13 11:13:56 593
原创 Hive及Hive安装
Hive专业术语专业术语1、Hive是什么Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能。 通俗讲,其实HIVE就是一个SQL解析引擎,它将SQL语句转译成M/R JOB然后在Hadoop执行,来达到快速开发的目的。拨开HIVE的神秘面纱之后来看它的表其实就是一个Hadoop的目录/文件(HIVE默认表存放路径一般都是在你的工作...
2018-11-07 08:52:22 255
原创 Spark任务调度
Spark任务调度专业术语HDFS包含层次的作用NameNodeSecondaryNameNodeDataNodeHDFS数据读取过程具体过程HDFS数据上传过程具体过程NameNode元数据持久化(将内存中的元数据储存到磁盘中)DataNode备份HDFS伪分布式搭建专业术语       任务相关:Ap
2018-11-07 08:51:41 301
原创 Spark集群搭建
Standalone集群的架构Spark的Standalone集群搭建的准备工作把Spark安装包spark-1.6.3-bin-hadoop2.6.tgz拷贝到node1节点使用tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz进行解压修改进入conf下配置文件的名字使用mv命令,改完名字浏览如下图所示修改slaves配置文件内容slaves配置文件里面...
2018-11-07 08:51:17 152
原创 Spark资源调度
Spark资源调度相关术语以Cluster方式提交具体流程以Client方式提交具体过程相关术语       Workers:HashSet[WorkerInfo]集合,用于储存worker地址信息及资源信息  &n
2018-11-07 08:49:20 198
原创 Map/Reduce与Yarn集群的搭建
Map/ReduceMap/Reduce原理Map Task原理Reduce Task原理Hadoop 2 yarn资源调度器配置Map/Reduce节点设计详细步骤Map/Reduce原理      &am
2018-10-16 20:38:20 250
原创 CentOS 6.5环境下搭建HDFS高可用完全分布式
CentOS 6.5环境下搭建HDFS高可用完全分布式高可用完全分布式运行原理节点设计搭建准备工作准备工作配置免密登录配置ZooKeeper文件配置Hadoop文件NameNode初始化与服务启动搭建客户端ClientEclipse配置Map/Reduce插件配置Map/Reduce插件配置Map/Reduce插件可能遇到的问题高可用完全分布式运行原理    &a
2018-10-13 11:46:59 376
原创 CentOS 6.5环境下搭建HDFS完全分布式
CentOS 6.5环境下搭建HDFS完全分布式准备工作配置免密登录配置Hadoop文件将配置好的Hadoop文件分发到其余节点上HDFS初始化与服务启动准备工作       首先需要准备4台CentOS6.5虚拟机,并且将网络与JDK配置完全,如需配置JDK详见上次博客。  &
2018-10-10 20:49:01 400
原创 分布式存储:HDFS
分布式存储:HDFS大数据技术HDFS包含层次的作用NameNodeSecondaryNameNodeDataNodeHDFS数据上传过程具体过程NameNode元数据持久化(备份)DataNode备份HDFS伪分布式搭建大数据技术大数据即为短时间内快速的产生海量的多种多样的有价值的数据。大数据技术包括分布式存储(HDFS适合储存大文件、Lustre适合储存小文件、……)、分布式计算(批处理...
2018-10-09 21:35:21 341
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人