大数据体系

最新推荐文章于 2022-11-11 09:28:04 发布

ItStar_

最新推荐文章于 2022-11-11 09:28:04 发布

阅读量560

点赞数

开发语言

1.Java,大数据框架的编写支持很多开发语言,但是Java在大数据方面有很大的优势,目前流行的大数据Hadoop框架,MapReduce框架,很多部分都是用开源的Java语言编写,因此Java在大数据方面有很大优势

2.Scala,就大数据而言,对典型的迭代机器学习,即席查询,图计算等应用Spark比基于MapReduce,Hive,和Prgel的实现快上十倍到百倍。其中内存计算，数据本地性和传输

优化，调度优化等该居首功也与设计伊始即秉持的轻量理念不无关系,而Spark是采用Scala语言设计的。

3.Python，Python环境在于资源丰富，拥有坚实的数值算法，图标额数据处理基础设施，建立了良好的生态环境。Python的战略定位就是做一种简单，易用但专业，严谨的通用语言组合。

分布式存储

1.HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写随机访问超大规模数据集时，可以使用HBase。

2.HDFS分布式文件系统，它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

分布式计算

1.MapReduce是一种编程模型，用于大规模集群的并行运算。概念“map（映射）”和“reduce（规约）”，使他们主要的核心思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

2.Spark Core,Spark是一个开源的集群计算框架，使数据计算更快,Spark Core即Spark框架的核心库。

3.Spark Streamming是Spark框架的组件之一,Spark程序是使用一个Spark应用实例一次性对一批历史数据进行处理，Spark Streaming是将持续不断输入的数据流转换成多个batch分片，使用一批Spark应用实例进行处理。

4.Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架，具有最高的摄取率。

数据仓库技术

1.Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递，可以将一个关系型数据库中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

3.Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方的能力。

4.Spark SQL,Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。

640?wx_fmt=jpeg

关注