大数据体系

开发语言

1.Java,大数据框架的编写支持很多开发语言,但是Java在大数据方面有很大的优势,目前流行的大数据Hadoop框架,MapReduce框架,很多部分都是用开源的Java语言编写,因此Java在大数据方面有很大优势

2.Scala,就大数据而言,对典型的迭代机器学习,即席查询,图计算等应用Spark比基于MapReduce,Hive,和Prgel的实现快上十倍到百倍。其中内存计算,数据本地性和传输

优化,调度优化等该居首功也与设计伊始即秉持的轻量理念不无关系,而Spark是采用Scala语言设计的。

3.Python,Python环境在于资源丰富,拥有坚实的数值算法,图标额数据处理基础设施,建立了良好的生态环境。Python的战略定位就是做一种简单,易用但专业,严谨的通用语言组合。

分布式存储

1.HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写随机访问超大规模数据集时,可以使用HBase。

2.HDFS分布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

分布式计算

1.MapReduce是一种编程模型,用于大规模集群的并行运算。概念“map(映射)”和“reduce(规约)”,使他们主要的核心思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

2.Spark Core,Spark是一个开源的集群计算框架,使数据计算更快,Spark Core即Spark框架的核心库。

3.Spark Streamming是Spark框架的组件之一,Spark程序是使用一个Spark应用实例一次性对一批历史数据进行处理,Spark Streaming是将持续不断输入的数据流转换成多个batch分片,使用一批Spark应用实例进行处理。

4.Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。

数据仓库技术

1.Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

3.Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。

4.Spark SQL,Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象,并且可以充当分布式SQL查询引擎。

640?wx_fmt=jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值