大数据学习
文章平均质量分 86
thyyyyyyy
这个作者很懒,什么都没留下…
展开
-
大数据相关知识点总结汇总
大数据课程分布式存储HDFS1. Hadoop的历史作者dogcuttingDoug Cutting是Lucene、Nutch 、Hadoop等项目的发起人1.1.Hadoop的三驾马车GFSMapReduceBigTable1.2.hadoop生态圈hdfsmapreduceyarncommon2.HDFS的存储原理2.1 各个角...原创 2018-10-15 20:05:23 · 5191 阅读 · 1 评论 -
Spark学习(三)之 RDD
文章目录1、什么是RDD1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。...原创 2018-11-16 14:32:34 · 264 阅读 · 1 评论 -
Spark学习(二) 之集群搭建(standalone、HA-standalone、 spark on yarn)
Spark standalone(一)Spark安装包下载(二)安装过程(三)启动(四)验证Spark standalone HASpark on YARNSpark standalone(一) Spark安装包下载(1)官网下载http://spark.apache.org/downloads.htmlSpark standalone(二) 安装过程1、上传并解压缩...原创 2018-11-15 20:17:50 · 618 阅读 · 1 评论 -
Spark学习(一)之Spark初识
test原创 2018-11-15 17:48:43 · 229 阅读 · 1 评论 -
Hive的三种搭建模式及远程方式详细搭建步骤
Hive的搭建hive三种方式区别和搭建按照Hive中metastore(元数据存储)不同位置分为三种方式: a)内嵌Derby方式 b)Local方式 c)Remote方式1,安装Hive 解压下载好的apache-hive-1.2.1-bin.tar.gz安装包到 /opt/apache-hive-1.2.1目录下 tar -zxvf apache-hive-1.2.1-bin.tar.gz ...原创 2018-11-05 18:53:07 · 1987 阅读 · 1 评论 -
Hive基本原理
1. Hive简介        hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类S原创 2018-11-05 17:27:10 · 260 阅读 · 1 评论 -
大数据基础知识及分布式存储原理
HDFS原理原创 2018-10-10 00:14:30 · 758 阅读 · 1 评论 -
yarn集群搭建
yarn集群搭建步骤规划NN1NN2DNZKZKFCJNNRSNMnode01√√√√node02√√√√√√node03√√√√node04√√√1.修改yarn-site.xml步骤<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_...原创 2018-11-01 18:41:37 · 188 阅读 · 1 评论 -
分布式MapReduce原理详解
MapReduce原理一、什么是MapReduce?&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;MapReduce是一个基于 java 的并行分布式计算框架,使用它来编写的数据处理应用原创 2018-10-16 23:01:23 · 1398 阅读 · 2 评论 -
Hadoop1.x版本和Hadoop2.x版本架构原理
MapReduce 1.x 架构MapReduce 1.x 采用 Master/Slave 架构,由全局唯一的 Jobtracker 和多个 TaskTacker 组成,并且在Client中提供一系列的api供编程和管理使用。1.client提供api供用户编程调用,将用户编写的MapReduce程序提交到JobTracker中。2. JobTracker负责资源调度 主节点 发生故...原创 2018-10-18 22:05:46 · 769 阅读 · 1 评论 -
Spark学习(四)之Spark运行流程
文章目录一、Spark中的基本概念二、Spark的运行流程一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Applicati...原创 2018-11-19 19:39:48 · 422 阅读 · 0 评论