大数据的存储—HBase

       HBase(HadoopDataBase )是一个高可靠性、高性能、面向列、可伸缩的分布式数据库系统,它使用类似于GFS的HDFS作为底层文件存储文件,在其上运行MapRduce批量处理数据。使用ZooKeeper作为协同服务组件。

       Hive在Hadoop生态环境中起到数据库仓库的作用,它通过简单的HQL调用,实现了后台利用MapReduce计算框架对大规模数据的处理,易用性和可靠性是其主要特点。但时效性不是Hive的强项,比如一个简单的带WHERE条件的SELECT语句,相比其它的RDBMS,执行速度慢。另外,Hive表中的数据也不支持单行数据删除和更新。

       在大环境下实现低延迟数据读写,就需要用到HBase。

       NoSQL(Not only SQL)非关系数据库。和数据库管理系统(RDBMS)相比,NoSql不使用SQL作为查询语言。其存储可以不需要固定的表模式,通常也会避免使用RDBMS的JION操作,一般都具备水平可扩展的特性。NoSQL的实现具有两个特征:使用硬盘和把随机存储器作为存储载体。按照存储格式来分,NoSQL可以分为4类:键值存储数据库、列存储数据库、文档存储数据库和图形数据库。目前比较流程的NoSQL数据库有Casssandra、Luncene、Neo4j、MongoDB和HBase。

RDBMS和HBase优缺点比较:

RDBMS缺点

HBase优点

高并发瓶颈。Web2.0模式下要实时生成动态页面而无法使用静态化技术,对于每秒上万次的写入DB操作,硬盘I/O存在明显的瓶颈

扩展性强。每种NoSQL产品都去掉关系型数据库的关系特性,弱关系的数据更容易扩展,使得很容易实现支持数据从TB到PB级别的过度。

可扩展性的限制。DB无法像Web Server或App Server那样依靠简单增加节点来平滑扩展性能,往往要停机维护和数据迁移。

并发性好。NoSQL数据具有良好的读写性能,其德益于它的弱关系性特点,数据的结构简单。

事务一致性负面影响。保证数据完整性的唯一方法是使用事务,这会消耗数据库资源,而很多Web系统并不需要严格的数据一致性。

数据模型灵活。NoSQL无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。NoSQL允许用户随时添加字段。而对传统RDBMS,增删字段是非常麻烦的事情,尤其是对数据是非常大的表。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值