大数据
文章平均质量分 56
各种大数据框架等
男孩李
被人嘲笑的梦想,越有实现的价值!
展开
-
Hadoop之HDFS概述
1.1 HDFS产生背景及定义 1)随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 ...转载 2021-06-01 09:54:11 · 151 阅读 · 0 评论 -
大数据技术之Hadoop概述
一、Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 二、Hadoop优势 1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。 3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处原创 2021-04-25 17:26:59 · 1017 阅读 · 0 评论 -
Hadoop简介
1.什么是大数据 大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术 大数据包括了以Hadoop和Spark为代表的基础大数据框架 还包括实时数据处理,离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术 Hadoop核心 HDFS 分布式文件系统:存储是大数据技术的基础 MapReduce 编程模型:分布式计算是大数据应用的解决方...原创 2020-03-09 15:54:14 · 241 阅读 · 0 评论 -
MapReduce编程规范
用户编写的程序分成三个部分:Mapper、Reducer 和 Driver。 1.Mapper阶段 (1)用户自定义的Mapper要继承自己的父类 (2)Mapper的输入数据是KV对的形式(KV的类型可自定义) (3)Mapper中的业务逻辑写在map()方法中 (4)Mapper的输出数据是KV对的形式(KV的类型可自定义)(5)map()方法(MapTask进程)对每一个<K,V>调用一次 ...原创 2021-06-08 17:16:28 · 285 阅读 · 0 评论