![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
文章平均质量分 73
PowerBlogger
目前是菜鸟程序员
展开
-
大数据课程-HDFS详解
大数据课程一、分布式存储HDFS1、 Hadoop的历史作者Doug CuttingLucene三驾马车GFSMapReduceBigTablehadoop生态圈hdfsmapreduceyarncommon2、HDFS的存储原理各个角色的作用NameNode1、接受客户端的读写请求2、管理元数据 ①上传的文件的权限 ②上传文...原创 2018-10-15 14:17:30 · 485 阅读 · 0 评论 -
基于高可用的HDFS分布式集群搭建Yarn
高可用的集群搭建可以参考博主的另一篇博客https://blog.csdn.net/PowerBlogger/article/details/83018127集群规划:基于HDFS高可用分布式集群搭建yarn步骤:找到hadoop安装目录下的 mapred-site.xml.template ,将其更名为mapred-site.xml ,mv mapred-site.xml.temp...原创 2018-10-18 14:08:12 · 244 阅读 · 0 评论 -
HDFS原理
HDFS原理NameNode1.接收客户端请求2.管理元数据文件的上传时间文件权限文件属主文件的位置信息block的Id3.管理集群各个存储节点的存储情况以及存活情况SecondrayNameNode持久化内存中的元数据,除了block的位置信息,其他元数据都会持久化DataNode1.存储源数据(以block块的形式存储)2.接收客户端的读请求3.向NameNod...原创 2018-10-09 23:28:41 · 479 阅读 · 0 评论 -
MapReduce的运行原理
MapReduce的执行步骤:每个Map上创建一个split数据,默认和block大小相同,每一个split都会由一个map task进行处理,从block中读取出每一行的数据会变成一个个的键值对<K,V>。接下来,读取出来的数据都会进入内存缓冲区,在进入缓冲区之前,每一条数据都会被打上标签,这个过程叫做分区,由分区器来完成,默认的分区器是HashPartitioner,然...原创 2018-10-16 21:29:14 · 285 阅读 · 0 评论 -
HDFS完全分布式的搭建步骤
1.时间同步 首先需要在各个节点上都安装上ntp yum install ntp 然后在网上查找最新的时间服务器ntp1.aliyun.com 使用ntp同步时间ntpdate ntp1.aliyun.com2.配置免密登录也就是所有NameNode到所有节点的免密登录所有节点执行ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa然后在NameNo...原创 2018-10-10 20:35:26 · 213 阅读 · 0 评论 -
Hive工具的配置与使用
Hive有三种模式:内嵌Derby方式Local方式Remote方式在实际的开发中,我们经常用的是第三种,所以接下来我们就介绍一下Remote方式的Hive如何配置 由于Remote方式和Local方式都是使用的mysql数据库,所以在安装Hive之前,我们需要先安装mysql首先从官网下载安装文件 http://mirror.bit.edu.cn/apache/hive...原创 2018-10-20 20:37:26 · 661 阅读 · 0 评论 -
Hive基础理论及表的类型
什么是Hive?Hive是建立在Hadoop上的,用来构建数据仓库的工具,里面有表的概念,可以使用SQL语句实现存储、查询和分析存储在 HDFS上的数据,这些SQL语句在Hive中称为HQL,语法和SQL语句基本一样。由于数据是杂乱无章的,所以Hive需要一份关于这些数据的元数据来管理和操作这些数据。这份元数据包括:元数据(行的分隔符(在映射成表的时候知道在哪里分行显示)字段分隔符(在映...原创 2018-11-02 20:09:27 · 1101 阅读 · 0 评论 -
Spark概述
基本介绍:Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,用来构建大型的、低延迟的数据分析应用程序。它扩充了MapReduce的计算模型。spark的一个主要特点是基于内存进行计算,即使依赖磁盘进行复杂的运算,Spark依然比MapRed...原创 2018-11-05 19:04:19 · 360 阅读 · 0 评论 -
Spark集群的搭建
首先,去spark官网下载spark安装包笔者这次使用的是spark1.6.3、Hadoop2.6版本的jar包下载完成后,把jar包发送到服务器上进行解压,然后把解压后的文件夹名称改为spark1.6.3.进入conf目录修改slave.template->slave(这里是配置Woker所在节点位置)node02node03node04修改spar...原创 2018-11-05 19:27:11 · 254 阅读 · 1 评论