![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop读书笔记
有逼格d伊凡
我是伊凡,今天是2015年12月2号,我开通的CSDN博客,我的博客主要围绕JAVA技术,并拓展其运用的工具相关技术,未来的时间请大家一起见证我的成长
展开
-
第一章 初识hadoop
容量的单位顺序:从小到大1024MB->GB->TB->PB->EB->ZB->YB名言:大数据胜于好算法大数据真实需求案例:邮件公司日志,每月运行一个mapreduce,任务帮助公司决定在哪些Rackspace数据中心需要添加新的服务器硬盘操作的延迟主要受两方面影响:1、寻址时间:将磁头移动到特定的硬盘位置进行读写操作的过程2、传输速率原创 2017-07-14 15:28:01 · 346 阅读 · 0 评论 -
第二章 关于MapReduce
Unix传统处理按行存储数据工具是awkMapReduce任务分为两个处理阶段:Map阶段和Reduce阶段。每个阶段都以键值对作为输入和输出,其类型有程序员来选择。程序员还需要些两个函数:map函数和reduce函数map阶段为数据的准备阶段,此处我们比较合适去除去已损记录的地方,比如筛选缺失,可疑,错误的数据防止覆盖的一个思路:reduce写入目录。在运行作业前该目录是如果存在原创 2017-07-14 16:10:47 · 363 阅读 · 0 评论 -
第三章 Hadoop分布式文件系统
Hadoop是一个综合性的文件系统抽象,可以集成不同的文件系统(如本地文件系统和Amazon S3系统)HDFS的设计HDFS以流式数据访问模式来存储超大文件,运行于商用的硬件集群上1、超大文件。目前已有PB级数据的Hadoop集群了2、流式数据访问。一次写入,多次读写。长时间在数据集上各种分析每次分析都将涉及数据集的大部分或者全部。强调读取整个数据集的时间3、商用硬件原创 2017-07-17 09:39:09 · 328 阅读 · 0 评论