谈谈我对大数据技术的一些理解。

近来项目组准备把批量迁移到大数据环境下,再加上新的业务需求,需要进行一些大规模数据的加工,所以号召团队往大数据方向靠,最近我也买了几本书,网上找了一些资料学习了一下,所以想谈谈自己对这门技术的粗略了解。
大数据技术最近的火热,主要源自于google的三篇论文,
Google File System中文版
Google Bigtable中文版
Google MapReduce中文版
这几篇文章,因为时间原因,也没有时间去全部阅读,只是大概的有所了解。
HDFS 架构
首先就是大数据的存储基础,HDFS。HDFS分布式的存储数据,在多个节点上备份数据,使得数据的存储成本大大降低。高容错性、适合批处理、成本低、适合大数据处理。这些都是其非常显著的优点。
MAPREDUCE
分布式计算引擎,通过MAP操作,将任务分为多个子任务,分配给集群,而Reduce工作将各个集群的计算结果合在一起,返回给调度者。因为期间的工作,需要多次的跟硬盘进行IO操作,所以极大的影响了效率,以至于后面出现更加优秀的SPARK计算引擎。
现在,在面对大规模数据的时候,我们能把数据存起来,同时,我们还能够把数据进行汇总。但是,用MapReduce直接进行编程,试过的人都知道,这是一件非常痛苦的事情。而,我们已经非常习惯使用关系型数据库,使用SQL语句去操作数据。故,HIVE出现了,我们在前台写入SQL语句,HIVE自动的将其翻译成MapReduce操作,极大的砍去了开发MapRedeuce程序的冗余工作。
这里需要提一下Hbase,很多同学分不清两者的的关系,HBase是一种NoSQL,通常被称为Hadoop Database,就是一种数据库。在非关系型数据库中,我们可以把HBase看成是Oracle,而HIVE就是SQLdevelopler。
后来,我们用着用着,发现HIVE因为底层的原因,还是不好用,比较慢,这时候,Cloudera公司的impala就出现了。Impala没有再使用缓慢的 Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。
上文提到了,因为mapreduce操作,在分布式计算中,需要多次跟硬盘进行IO操作,我们就在想,有没有一种可能,在分布式计算时,尽量少的于硬盘进行IO,而是跟内存进行IO。这个时候,Spark诞生了。
今天先写到这里,以后再写。。。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值