很多时候,你缺少的不是知识而是热情

MYSQL,NOSQL,架构,大数据

Hadoop虽然强大,但不是万能的

随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大型数据计算的框架,但Hadoop不是万能的。比如在下面这几种场景就不适合使用Hadoop: 1、低延迟的数据访问 Hadoop并不适用于需要实时查询和低...

2014-02-07 20:18:37

阅读数:880

评论数:0

多版本并发控制(MVCC)在分布式系统中的应用

问题 最近项目中遇到了一个分布式系统的并发控制问题。该问题可以抽象为:某分布式系统由一个数据中心D和若干业务处理中心L1,L2 … Ln组成;D本质上是一个key-value存储,它对外提供基于HTTP协议的CRUD操作接口。L的业务逻辑可以抽象为下面3个步骤: read: 根据keySet ...

2014-01-22 09:13:44

阅读数:974

评论数:0

分布式系统的事务处理

当我们在生产线上用一台服务器来提供数据服务的时候,我会遇到如下的两个问题: 1)一台服务器的性能不足以提供足够的能力服务于所有的网络请求。 2)我们总是害怕我们的这台服务器停机,造成服务不可用或是数据丢失。 于是我们不得不对我们的服务器进行扩展,加入更多的机器来分担性能上的问题,以及来解决单...

2014-01-21 15:14:58

阅读数:1241

评论数:0

数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径

摘要:Hadoop让大数据分析走向了大众化,然而它的部署仍需耗费大量的人力和物力。在直奔Hadoop之前,是否已经将现有技术推向极限?这里总结了对Hadoop投资前可以尝试的10个替代方案,省时、省钱、省力,何乐而不为? 让业务搭乘大数据技术确实是件非常有吸引力的事情,而Apache ...

2013-12-06 10:09:31

阅读数:958

评论数:0

莫轻言已成功部署大数据,也许你离达标还相去甚远!

摘要:系统的吞吐量并不能代表大数据技术的成功部署,能给企业来带价值、业务带来突破性的改善才是衡量大数据部署成败的核心。在这里,10gen战略副总裁Matt Asay带来了他为成功总结的4个标准。 在大数据范畴大展拳脚肯定是个正确方向,同时世界各地的初创公司及企业巨头也在借力大数据和大数据应用...

2013-12-06 10:07:46

阅读数:1562

评论数:0

Hadoop实际应用场景,阿里和百度

[Hadoop] 实际应用场景之 - 阿里 Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集群3000节点以上,2-3个集群,支付宝的集群规模...

2013-12-06 10:04:52

阅读数:1877

评论数:0

别老扯Hadoop蛋了,你的数据根本不够大(有点搞笑)

本文原名“Don’t use Hadoop when your data isn’t that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推...

2013-11-19 17:05:30

阅读数:1214

评论数:0

HBase,想说爱你不容易啊!

2013年 DB-Engines的数据库人气排行榜 :     如此看来即使HBase最后可以成为NoSQL领域的领军者,这条成功路上也是遍地荆棘。 优点: 从开发者角度上来看,HBase提供的强一致性会让开发过程变得轻松。而这里对于最终一致性存在的误区就是:它改善的是写入...

2013-11-13 11:22:06

阅读数:1219

评论数:0

大数据处理之如何确保断电不丢数据

今年7、8月份杭州实行拉闸限电时,导致阿里余杭机房的机器意外断电,造成HDFS集群上的部分数据丢失。 在Hadoop 2.0.2-alpha之前,HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据丢失的问题。而最近刚发布的CDH4中HDFS在Client端提供了hsync()的方法...

2013-11-12 12:56:25

阅读数:2595

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭