![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
从0学大数据
大碗宽面007
这个作者很懒,什么都没留下…
展开
-
从0学大数据 1初识HDFS
HDFS HDFS是在一个大规模分布式服务器集群上,对数据分片后进行并行读写及冗余存储。 HDFS的关键组件有两个:DataNode,NameNode。 DataNode负责文件数据的存储和读写操作,HDFS将文件数据分割成若干数据块(Block),每个DataNode存储一部分数据块,这样文件就分布存储在整个HDFS服务器集群中。应用程序客户端(Client)可以并行对这些数据块进行访...原创 2019-09-09 21:25:47 · 133 阅读 · 0 评论 -
从0学大数据 2初识MapReduce
使用MapReduce,我们只需要关心业务逻辑,不用关心系统调用与运行环境,这和目前的主流开发方式是一致的。 大数据计算的核心思路是移动计算比移动数据更划算。 Hadoop解决大规模数据分布式计算的方案——MapReduce MapReduce既是一个编程模型,又是一个计算框架 编程模型 假设有两个数据块的文本数据需要进行词频统计,MapReduce计算过程如下图所示。 在Map阶...原创 2019-09-10 19:23:27 · 89 阅读 · 0 评论 -
从0学大数据 3初识Yarn
Hadoop主要是由三部分组成,除了分布式文件系统HDFS、分布式计算框架MapReduce,还有一个是分布式集群资源调度框架Yarn。 Yarn是“Yet Another Resource Negotiator”的缩写,字面意思就是“另一种资源调度器”。 先回忆一下MapReduce的架构,在MapReduce应用程序的启动过程中,最重要的就是要把MapReduce程序分发到大数据集群的服务...原创 2019-09-10 22:59:28 · 144 阅读 · 0 评论 -
从0学大数据 4Hadoop大数据仓库Hive
Hive的架构 Hive能够直接处理我们输入的SQL语句(Hive的SQL语法和数据库标准SQL略有不同),调用MapReduce计算框架完成数据分析操作。下面是它的架构图,我们结合架构图来看看Hive是如何实现将SQL生成MapReduce可执行代码的。 我们通过Hive的Client(Hive的命令行工具,JDBC等)向Hive提交SQL命令。如果是创建数据表的DDL(数据定义语言),...原创 2019-09-11 21:43:48 · 153 阅读 · 0 评论 -
从0学大数据 5比MapReduce更快的计算框架Spark
在Spark出现之前,人们并没有对MapReduce的执行速度和编程复杂度不满 在Spark出现之后,人们才开始对MapReduce不满。原来大数据计算速度可以快这么多,编程也可以更简单。而且Spark支持Yarn和HDFS,公司迁移到Spark上的成本很小,于是很快,越来越多的公司用Spark代替MapReduce。 Spark编程模型—RDD 使用Scala语言在Spark上编写Word...原创 2019-09-13 12:24:12 · 269 阅读 · 0 评论