大数据与云计算基础知识总结(一)

1.云计算来源:
Google搜索引擎首先提出,并通过三篇论文为世人所知。
2.云计算定义:
动态扩展,通过网络将虚拟化资源作为服务提供。(Iaas,Paas,Saas)
Iaas:提供硬件资源,AWS,网络服务,基础架构。
Paas:提供服务引擎,接口运行平台。
Saas:软件租用,使用状况。
3.其他云分类:
公有云、私有云、混合云。(分布式存储、分布式计算)
4.大数据作用:
可视化分析、数据挖掘算法、预测性分析、语音引擎、数据质量与管理。
5.关键性技术:
GFS、BigTable、Map-Reduce=>三篇论文是Hadoop的基础。
6.Hadoop的三种模式:
Lucene单机模式、伪分布式模式、完全分布式模式。
三种发行版本:Apache Hadoop、CDH(Cloudera)、HDP(HortonWorks)。
7.Hadoop的优势:
运行方便、健壮性、可扩展性、简单易应用、分布式、高效高容错。
8.大数据的四个特征(4V特性):
海量化、多样化、快速化、价值化。
9.Hadoop1(0.20x,0.21x,1.x)与Hadoop2(0.23x,2.x)的对比:
块大小从64M到128M,增加了Yarn优化计算框架,Federation机制(多个NameNode,共享式存储的HA模式,高可靠性)。
10.Hadoop的产生:
Doug Cutting是Hadoop之父,Hadoop是Apache软件基金会的顶级开源项目。
11.Hadoop组件介绍:
HDFS:分布式文件系统,提供高吞吐量访问应用程序数据;
YARN:集群资源管理框架,用户作业调度和集群资源管理;
MapReduce:基于YARN的大数据集并行处理系统;
Common:支持其他模块通用功能,如序列化,RPC,持久化数据结构等;
Ambari:部署管理和监视的开源框架,提供直观操作工具和健壮性的API;
Hbase:可拓展的分布式列式数据库,支持大表的结构化存储;
Hive:分布式数据仓库系统,提供基于类SQL查询语言;
Mahout:机器学习和数据挖掘领域经典算法实现;
Pig:高级数据流语言和执行环境,用来检索海量数据集;
Spark:快速通用计算引擎,支持多应用的编程模型;
Sqoop:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值