自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 4.Hadoop I/O

4. Hadoop I/O4.1. Data Integrity 数据完整性一般使用checksum检查数据的完整性,但是他仅能检查完整性,而不提供任何的修复办法,checksum的值也有出错的可能。Hadoop采取了不同策略的checksum来克服以上的不足4.1.1. Data Integrity In HDFS HDFS中的数据完整性1) HDFS透明的计算其内部数据的c...

2009-11-30 22:34:22 145

原创 3.The Hadoop Distributed File System

3. The Hadoop Distributed File System3.1. The Design of HDFSHDFS设计的针对对象:适合流式访问的超大文件、在使用便宜的硬件搭建的集群上运行。HDFS不足:低延迟数据访问(Hbase是个好选择)、小文件多的时候出现问题(HDFS将文件Meta信息存储在内存中,内存限制了可以控制的文件数量)、对文件的多个wirter进行写入...

2009-11-30 22:33:32 214

原创 2.MapReduce

2. MapReduce2.1. A Weather Dataset 一个天气数据集数据是NCDC的数据,我们关注以下特点:1) 数据是半格式化的2) 目录里面存放的是从1901-2001年一个世纪的记录,是gzip压缩过的文件。3) 以行为单位,使用ASCII格式存储,每行就是一条记录4) 每条记录我们关注一些基本的元素,比如温度,这些数据在每条数据中都会出现,并且宽度也...

2009-11-30 21:58:34 161

原创 1. Meet Hadoop

1. Meet Hadoop1.1. Data 数据本节陈述了这样的事实:数据量越来越大,并且来源也越来越多,我们面临的问题是如何有效的存储和分析它们。1.2. Data Storage and Analysis 数据存储和分析现在面临这这样的一个问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长。读取硬盘上的全部数据会花费比较长的时间,...

2009-11-05 08:40:36 149

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除