系统架构设计与优化
maoxiao_jsd
这个作者很懒,什么都没留下…
展开
-
hdfs设计要点
一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一转载 2013-09-29 19:53:22 · 561 阅读 · 0 评论 -
NoSql大比拼--方案
NoSQL数据库大比拼: Cassandra, HBase, MongoDB, Riak一文提供了这四个NoSQL数据库读 修改等操作的不同性能比较。是最新的一份全面报告。该比较是以延迟和吞吐量为衡量指标,吞吐量越大,造成的延迟就越大,这是一对矛盾,那么哪个NoSQL数据库能够在这对矛盾中做得更好呢?首先是大量数据Load加载,一亿的数据加载比较如下:原创 2013-09-27 11:27:10 · 842 阅读 · 0 评论 -
数据产品技术架构
http://blog.csdn.net/paulluo0739/article/details/7656466转载 2013-11-07 09:53:23 · 591 阅读 · 0 评论 -
高性能、高流量Java Web
1. 考虑使用不止一个数据中心在商务领域,一直存在许多恐怖的道听途说,而这些恐慌都因为他们只使用了单一的数据中心。如果你想在自然灾害或者电力供应故障中幸免,那么请使用多于1个的数据中心,使用active-active模式来配置你所有的数据中心。虽然在开销上可能会有所增加,但是比只使用单active的配置要值得多——因为在passive和active副本上,总会发现有些数据片不一致。转载 2013-12-21 09:26:13 · 778 阅读 · 1 评论 -
深入剖析阿里巴巴云梯YARN集群
阿里巴巴作为国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群,即云梯集群,分为存储与计算两个模块,计算模块既有MRv1,也有YARN集群,它们共享一个存储HDFS集 群。云梯YARN集群上既支持MapReduce,也支持Spark、MPI、RHive、RHadoop等计算模型。本文将详细介绍云梯YARN集群的 技术实现与发展状况。转载 2014-01-09 18:59:26 · 900 阅读 · 0 评论 -
大数据下的数据分析平台架构(2011)
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。谢超Admaster数据挖掘总监,云计算实践者,10年数据仓库和数据挖掘咨询经验,现专注于分布式平台上的海量数据挖掘和机器学习。作转载 2014-01-14 10:03:36 · 643 阅读 · 0 评论