20200406 NoSQL笔记(四)

第四章 Hadoop体系架构
在这里插入图片描述

  1. HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)
  1. Hadoop体系中数据存储管理的基础
  2. 它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行
  3. 与谷歌的DFS对应
  1. MapReduce
  1. 一种计算模型,用以进行大数据量的计算
  2. Hadoop的MapReduce实现,和Common、HDFS一起,构成了Hadoop发展初期的三个组件
  3. 与谷歌MapReduce对应
  1. Hive
  1. 建立在Hadoop基础上的数据仓库架构,为数据仓库的管理提供了许多功能,包括:数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力
  2. Hive提供的是一种结构化数据的机制,定义了类似于传统关系数据库中的类SQL语言:Hive QL,通过该查询语言,数据分析人员可以很方便地运行数据分析业务
  1. HBase
  1. HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库
  2. 和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成
  3. HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
  1. Pig
  1. Pig运行在Hadoop上,是对大型数据集进行分析和评估的平台
  2. 简化了使用Hadoop进行数据分析的要求,提供了一个高层次的、面向领域的抽象语言:Pig Latin
  3. 通过Pig Latin,数据工程师可以将复杂且相互关联的数据分析任务编码为Pig操作上的数据流脚本,通过将该脚本转换为MapReduce任务链,在Hadoop上执行
  4. 和Hive一样,Pig降低了对大型数据集进行分析和评估的门槛
  1. Hadoop Common
  1. 从Hadoop 0.20版本开始,原来Hadoop项目的Core部分更名为Hadoop Common
  2. Common为Hadoop其他项目提供了一些常用工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem
  3. 它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API
  1. ZooKeeper
  1. 作为一个分布式的服务框架,解决了分布式计算中的一致性问题
  2. 在此基础上,ZooKeeper可用于处理分布式应用中经常遇到的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等
  3. 与谷歌Chubby对应
  1. Avro
  1. Avro是一个数据序列化系统
  2. 类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换
  3. Avro提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能
  1. Mahout
  1. Mahout起源于2008年,最初是Apache Lucent的子项目,它在极短的时间内取得了长足的发展,现在是Apache的顶级项目
  2. Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序
  3. Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法
  4. 除了算法,Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB 或Cassandra)集成等数据挖掘支持架构
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值