Hadoop
文章平均质量分 96
Hadoop学习笔记
大蒜儿ʕ๑•㉨•๑ʔ❀
课余时间的学习笔记 加油(ง •̀_•́)ง
展开
-
Hadoop I/O详解
Hadoop I/O详解目录Hadoop I/O详解1、数据完整性2、压缩3、序列化(Serialization)1、数据完整性Hadoop用户肯定都希望系统在存储和处理数据时,数据不会有任何丢失或损坏。但是,尽管磁盘或网络上的每个I/O操作不太可能将错误引入自己正在读写的数据,但是,如果系统需要处理的数据量大到Hadoop能够处理的极限,数据被损坏的概率还是很高的。检测数据是否损坏的常见措施是,在数据第一次引入系统时计算校验和(checksum),并在数据通过一个不可靠的通道进行传输时再次计算原创 2022-05-03 20:57:49 · 426 阅读 · 0 评论 -
Hadoop MapReduce编程模型
MapReduce编程模型一、MapReduce编程模型简介MapReduce源于Google的一篇论文,它充分借鉴了分而治之的思想,将z个数据处理过程拆分成主要的Map(映射)与 Reduce(化简)两步。这样,即使用户不懂分布式计算框架的内部运行机制,只要能用Map和Reduce的思想描述清楚要处理的问题,即编写map()和reduce()函数,就能轻松地使问题的计算实现分布式,并在 Hadoop上运行。二、什么是MapReduceMapReduce采用的是“分而治之”的思想,把对大规原创 2022-05-03 20:36:45 · 1511 阅读 · 0 评论 -
Hadoop(理论)
Hadoop一、大数据概论1、什么是大数据大数据:(Big Data):数据量级很大的应用处理。TB级 ,日数据增长GB级K -- M---- G ---- T ----PB ---- EB ---ZB 1024通过对海量数据进行分析,挖掘,进而发现数据内在的规律,从而为企业或者国家创造价值2、大数据特点4V 是大数据典型的特点具体指的是:1.Volume (大量)数据量很大,至少是TB或者日均增加GB级2.Variety (多样)a.结构化数据 : 传统关系型数据库中的原创 2022-04-20 21:33:47 · 2576 阅读 · 0 评论