大数据技术名词解释

1、Hadoop:由Apache基金会所开发的分布式系统基础架构,是一个能够对大量数据进行分布式数据的软件框架。Hadoop包含多个技术核心:HDFS、MapReduce、Hive、Hbase。

2、HDFS:Hadoop Distributed File System,即分布式文件系统,其关键技术:NameNode、DataNode。

3、MapReduce:根源是函数性编程中的Map和Reduce,Map函数接受一组数据并将其转换为键/值对列表,Reduce函数接受Map函数生成的列表,然后根据它的键缩小键/值对。

4、Hbase:是一个分布式、面向列的开源数据库。

5、Hive:建立在Hadoop上的数据仓库基础架构,它提供一系列的工具,可以用来进行存储、查询、分析存储在Hadoop上的大规模数据的机制。

6、Zookeeper:为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

7、Pig:大数据分析平台、为用户提供多种接口。Pig是一种编程语言,它简化了Hadoop常见的工作服务。

8、NoSQL:Not only SQL,泛指非关型数据库,区分传统的关系型数据库。表现最突出的产品有:MongoDB、Hbase、CouchDB、Cassandra、SequoiaDB等。

9、Spark:类似Hadoop MapReduce的通用并行框架,不同之处在于Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,可优化迭代工作负载。发展势头很猛,有人甚至因此认为Hadoop已死。

10、Docker:一个开源的应用程序容器,开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化。目前只能虚拟基于Linux的服务,Windows服务还不能被虚拟,但据说未来会。相对于虚拟机可以大大提高资源的利用率,而不是把有限的资源浪费在虚拟化硬件上,所以一经推出就备受吹捧。

-----不断补充中--------

大数据技术比较复杂,罗列名词的目的是帮助自己理清大数据技术的组成,不至于在工作中被各种术语弄晕,更好地提升自己。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

极客行天下

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值