谈谈我对大数据技术的一些理解。

最新推荐文章于 2024-05-14 11:28:19 发布

黑老板奋斗吧

最新推荐文章于 2024-05-14 11:28:19 发布

阅读量1w

点赞数

分类专栏： hadoop 文章标签：大数据 mapreduce google file system spark

本文链接：https://blog.csdn.net/lzh41764176/article/details/78944367

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

近来项目组准备把批量迁移到大数据环境下，再加上新的业务需求，需要进行一些大规模数据的加工，所以号召团队往大数据方向靠，最近我也买了几本书，网上找了一些资料学习了一下，所以想谈谈自己对这门技术的粗略了解。
大数据技术最近的火热，主要源自于google的三篇论文，
Google File System中文版
Google Bigtable中文版
Google MapReduce中文版
这几篇文章，因为时间原因，也没有时间去全部阅读，只是大概的有所了解。
HDFS 架构
首先就是大数据的存储基础，HDFS。HDFS分布式的存储数据，在多个节点上备份数据，使得数据的存储成本大大降低。高容错性、适合批处理、成本低、适合大数据处理。这些都是其非常显著的优点。
MAPREDUCE
分布式计算引擎，通过MAP操作，将任务分为多个子任务，分配给集群，而Reduce工作将各个集群的计算结果合在一起，返回给调度者。因为期间的工作，需要多次的跟硬盘进行IO操作，所以极大的影响了效率，以至于后面出现更加优秀的SPARK计算引擎。
现在，在面对大规模数据的时候，我们能把数据存起来，同时，我们还能够把数据进行汇总。但是，用MapReduce直接进行编程，试过的人都知道，这是一件非常痛苦的事情。而，我们已经非常习惯使用关系型数据库，使用SQL语句去操作数据。故，HIVE出现了，我们在前台写入SQL语句，HIVE自动的将其翻译成MapReduce操作，极大的砍去了开发MapRedeuce程序的冗余工作。
这里需要提一下Hbase，很多同学分不清两者的的关系，HBase是一种NoSQL，通常被称为Hadoop Database，就是一种数据库。在非关系型数据库中，我们可以把HBase看成是Oracle，而HIVE就是SQLdevelopler。
后来，我们用着用着，发现HIVE因为底层的原因，还是不好用，比较慢，这时候，Cloudera公司的impala就出现了。Impala没有再使用缓慢的 Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。
上文提到了，因为mapreduce操作，在分布式计算中，需要多次跟硬盘进行IO操作，我们就在想，有没有一种可能，在分布式计算时，尽量少的于硬盘进行IO，而是跟内存进行IO。这个时候，Spark诞生了。
今天先写到这里，以后再写。。。