大数据
风吟弄然
这个作者很懒,什么都没留下…
展开
-
【转】Hadoop学习--第三篇:使用 Docker 搭建 Hadoop 集群
原文:使用Docker搭建hadoop集群 原文作者:繁城落叶 原文地址:https://blog.csdn.net/Leafage_M/article/details/72633408 说明:文中所有截图是我按原文步骤操作所截,与原文不一致。 刚开始搭建hadoop集群的时候,使用的是VMware创建的虚拟机。结果卡到心态爆炸。。。 今天尝试使用Docker搭建hadoop...转载 2018-11-09 10:44:13 · 299 阅读 · 0 评论 -
Hadoop学习--第一篇:Hadoop概述
一、大数据概论 概念 大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决:海量数据的存储和海量数据的分析计算问题。 特征 5V特征:大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(value)、真实性...原创 2018-11-02 20:00:02 · 595 阅读 · 0 评论 -
【转】Hadoop学习--第二篇:史上最详细的Hadoop环境搭建
GitChat 作者:鸣宇淳 原文: 史上最详细的Hadoop环境搭建 前言 Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。 这是一篇入门文章,Hadoop的学习方法很多,网上也有很多学习路线图。本文的思路是:以安装部署Apache Hadoop2.x版本为主线,来介绍Hadoop2.x的架...转载 2018-11-12 14:19:41 · 235 阅读 · 0 评论 -
Hadoop学习--第五篇:HDFS文件系统架构和操作
一、HDFS概述 1.1 HDFS概念 HDFS ( Hadoop Distributed File System ) ,Hadoop分布式文件系统,通过目录树(/)来定位文件。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文:http://www.open-open.com/lib/view/open1328763454608...原创 2018-12-03 16:30:56 · 269 阅读 · 0 评论 -
Hadoop学习--第七篇:初识 MapReduce
一、Mapreduce 概述 1.1 Mapreduce 概念 Mapreduce是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架。 1.2 HDFS优缺点 1.2.1 优点 ① MapReduce 易于编程。它简单的实现一些接口,就可以完成一个分布式程序。 ② 良好的扩展性。节点增删容易。 ③ 高容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另...原创 2018-12-27 15:58:33 · 214 阅读 · 0 评论 -
Hadoop学习--第六篇:HDFS 原理
一、HDFS读取过程 HDFS 读取文件步骤图: HDFS的文件读取原理,详细解析如下: 首先通过调用FileSystem对象的open方法,实际上获取的是一个DistributedFileSystem的实例。 DistributedFileSystem 通过 RPC(远程过程调用) 来调用 namenode,以确定文件的开头部分的 block 的 locations。对于每一 block,按...原创 2018-12-11 23:58:03 · 264 阅读 · 0 评论