Hadoop
buptsyqx
这个作者很懒,什么都没留下…
展开
-
java.io.IOException: Broken pipe
Hadoop Streaming编程: 采用Python脚本来编写map和reduce脚本时必须注意对异常情况的处理,比如: #!/usr/bin/python import sys for eachLine in sys.stdin: eachLine = eachLine.strip() Seg = eachLine.split('\x01') if原创 2012-04-25 16:25:42 · 5238 阅读 · 0 评论 -
HDFS异构存储
本文主要是对http://hortonworks.com/blog/heterogeneous-storages-hdfs/的学习笔记,由于水平所限,领悟不到位的地方,请多多指教。 可以搭建各种存储类型,每个应用可根据自身的性能或者成本要求选择一个最合适的。 每种存储类型可以主要从三类性能指标进行衡量: 1. 每M字节成本 2. 持久性 该指标是对数据成功写入介质翻译 2014-01-11 16:49:46 · 1783 阅读 · 0 评论 -
数据导入导出的几个关键点
将海量数据移进移出hadoop时,有很多逻辑上的问题需要考虑,比如一致性保证,对数据来源和目的地的资源影响。在研究具体技术之前,需要实现讨论以下几个在进行数据导入和导出时的设计要素: 1. 幂等性 An idempotent operation produces the same result no matter how many times it’s executed. In翻译 2014-03-07 16:27:43 · 945 阅读 · 0 评论