大数据
Awna
这个作者很懒,什么都没留下…
展开
-
大数据简介
1. HADOOP背景介绍 1.1 什么是HADOOP HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 A. HDFS(分布式文件系统) B. YARN(运算资源调度系统) C. MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个...原创 2017-09-11 20:50:39 · 476 阅读 · 0 评论 -
HDFS
1. HDFS前言 1.1设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 2.在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 2. HDFS的概念和特性 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它...原创 2017-09-11 20:51:26 · 530 阅读 · 0 评论 -
mapreduce
1. MAPREDUCE原理篇(1) Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 1.1 为什么要MAPREDUCE (1)海量数据在单机上处理因为硬件资源限制,无法胜任 (2)而一旦将单...原创 2017-09-11 20:52:29 · 1057 阅读 · 1 评论