cloudera 介绍

引言

     在使用cloudera之前我们需要搞清楚它是做什么的?它能解决什么问题?与传统的方式相比它的优势在哪?搞清楚了这些才能确定我们下一步是不是要选择它作为我们目前项目解决的方案。

Cloudera 简介

Cloudera 提供一个可扩展、灵活、集成的平台,可用来方便地管理您的企业中快速增长的多种多样的数据。业界领先的 Cloudera 产品和解决方案使您能够部署并管理 Apache Hadoop 和相关项目、操作和分析您的数据以及保护数据的安全。

Cloudera 提供下列产品和工具:
  • CDH — Cloudera 分发的 Apache Hadoop 和其他相关开放源代码项目,包括 Impala 和 Cloudera Search。CDH 还提供安全保护以及与许多硬件和软件解决方案的集成。
  • Cloudera Manager — 一个复杂的应用程序,用于部署、管理、监控您的 CDH 部署并诊断问题。Cloudera Manager 提供 Admin Console,这是一种基于 Web 的用户界面,使您的企业数据管理简单而直接。它还包括 Cloudera Manager API,可用来获取群集运行状况信息和度量以及配置 Cloudera Manager。
  • Cloudera Navigator — CDH 平台的端到端数据管理工具。Cloudera Navigator 使管理员、数据经理和分析师能够了解 Hadoop 中的大量数据。Cloudera Navigator 中强大的审核、数据管理、沿袭管理和生命周期管理使企业能够遵守严格的法规遵从性和法规要求。
  • Cloudera Impala — 一种大规模并行处理 SQL 引擎,用于交互式分析和商业智能。其高度优化的体系结构使它非常适合用于具有联接、聚合和子查询的传统 BI 样式的查询。它可以查询来自各种源的 Hadoop 数据文件,包括由 MapReduce 作业生成的数据文件或加载到 Hive 表中的数据文件。YARN 和 Llama 资源管理组件让 Impala 能够共存于使用 Impala SQL 查询并发运行批处理工作负载的群集上。您可以通过 Cloudera Manager 用户界面管理 Impala 及其他 Hadoop 组件,并通过 Sentry 授权框架保护其数据。

CDH

CDH 是 Apache Hadoop 及相关项目的最完整的、经过测试的普遍分布。CDH 提供 Hadoop 的核心元素 – 可升级存储和分布式计算 – 以及基于 Web 的用户界面和重要的企业功能。CDH 是 Apache 许可的开放源,也是提供统一批处理、交互式 SQL 和交互式搜索及基于角色的访问控制的唯一 Hadoop 解决方案。

CDH 提供:
  • 灵活性 - 存储任何类型的数据,并使用多种不同的计算框架进行处理,包括批处理、交互式 SQL、自由文本搜索、机器学习和统计计算。
  • 集成 - 启动并在完整的 Hadoop 平台(与多种硬件和软件解决方案一起工作)上快速运行。
  • 安全性 - 处理和控制敏感数据。
  • 可升级性 - 启用多种应用程序,并根据您的要求将其升级和延伸。
  • 高可用性 - 可以充满信心地执行重要的业务任务。
  • 兼容性 - 利用现有 IT 基础结构。

Cloudera Impala

Cloudera Impala 直接对您存储在 HDFS 或 HBase 中的 Apache Hadoop 数据提供快速、交互式 SQL 查询。除了使用相同统一存储平台之外,Impala 也使用与 Apache Hive 相同的元数据、SQL 语法 (Hive SQL)、ODBC 驱动程序和用户界面(Hive 中的 Cloudera Impala 查询用户界面)。这为实时或面向批处理的查询提供一个熟悉且统一的平台。

Cloudera Impala 是增加的可用于查询大数据的工具的。Impala 不能替代基于 MapReduce 构建的批处理框架(如 Hive)。Hive 和其他基于 MapReduce 构建的框架最适合于长时间运行的批处理作业,例如涉及提取、转换和加载 (ETL) 类型作业的批处理的那些批处理作业。

Impala 好处

Impala 提供:

  • 数据科学家和分析师已经熟悉的 SQL 界面
  • 以交互方式查询 Apache Hadoop 中的大数据的能力
  • 群集环境中的分布式查询,方便扩展和利用经济实惠的商用硬件
  • 无需复制或导出/导入步骤即可在不同组件之间共享数据文件的能力;例如,要使用 Pig 编写数据但使用 Impala 读取数据,或者使用 Impala 编写数据而使用 Hive 读取数据
  • 用于执行大数据处理和分析的单个系统,使客户能够避免仅出于分析目的执行代价高昂的建模和 ETL

Cloudera Impala 如何与 CDH 配合工作

下图展示了如何在更广泛的 Cloudera 环境下定位 Impala:

Impala 解决方案由下列组件构成:
  • 客户端 - 包括 Hue、ODBC 客户端、JDBC 客户端在内的实体以及 Impala Shell 都可以与 Impala 进行交互。通常情况下,这些接口用于发布查询或完成管理任务(例如连接至 Impala)。
  • Hive Metastore - 存储适用于 Impala 的数据的相关信息。例如,Metastore 让 Impala 知道哪些数据库是可用的,以及这些数据库采用的是什么结构。当您通过 Impala SQL 语句创建、删除和修改架构对象,在表中加载数据时,Impala 1.2 中引入的专用目录服务会自动将相关的元数据更改广播至所有 Impala 节点。
  • Cloudera Impala - 此流程在 DataNode 上运行,用于协调和执行查询。Impala 的每个实例都能接收、规划并协调来自 Impala 客户端的查询。查询分布在 Impala 节点之间,并且这些节点担任工作者的角色执行并行查询片段。
  • HBase 和 HDFS - 存储要查询的数据。
如下所述处理使用 Impala 执行的查询:
  1. 用户应用程序通过提供标准查询界面的 ODBC 或 JDBC 发送 SQL 查询至 Impala。用户应用程序可以连接至集群中的任何 impalad。此 impalad 成为查询的 Coordinator。
  2. Impala 对查询进行解析和分析,以确定集群上的 impalad 实例需要执行哪些任务。规划执行以达到最佳效率。
  3. 本地 impalad 实例访问 HDFS 和 HBase 等服务以提供数据。
  4. 每个 impalad 将数据返回至相应的 impalad,然后发送这些结果至客户端。

主要 Impala 功能

Impala 提供下列支持:

Cloudera Search 对存储在或接收到 Hadoop 和 HBase 中的数据提供接近实时的访问。搜索提供与不需要 SQL 或编程技能的既简单又支持全文浏览界面一样出色的近乎实时的索引、批处理索引、全文浏览和向下导航。

搜索与数据处理平台完全集成并使用 CDH 附带的灵活、可扩展且可靠的存储系统。这样,您就无需跨基础架构移动大型数据集来执行业务任务。

Cloudera Search 合并了 Apache Solr,其中包括 Apache Lucene、SolrCloud、Apache Tika 和 Solr Cell。Cloudera Search 与 CDH 4 和 CDH 5 附带的 紧密集成。

使用搜索和 CDH 基础架构可提供:

  • 简化基础架构
  • 更好的生产可见性
  • 更快深入了解各种数据类型
  • 更快解决问题
  • 为更多用户和使用案例简化交互和平台访问
  • 用于执行其他类型的相同数据的工作负荷的同一平台上搜索服务的可扩展性、灵活性和可靠性

 

Cloudera Search

Cloudera Search 对存储在或接收到 Hadoop 和 HBase 中的数据提供接近实时的访问。搜索提供与不需要 SQL 或编程技能的既简单又支持全文浏览界面一样出色的近乎实时的索引、批处理索引、全文浏览和向下导航。

搜索与数据处理平台完全集成并使用 CDH 附带的灵活、可扩展且可靠的存储系统。这样,您就无需跨基础架构移动大型数据集来执行业务任务。

Cloudera Search 合并了 Apache Solr,其中包括 Apache Lucene、SolrCloud、Apache Tika 和 Solr Cell。Cloudera Search 与 CDH 4 和 CDH 5 附带的 紧密集成。

使用搜索和 CDH 基础架构可提供:

  • 简化基础架构
  • 更好的生产可见性
  • 更快深入了解各种数据类型
  • 更快解决问题
  • 为更多用户和使用案例简化交互和平台访问
  • 用于执行其他类型的相同数据的工作负荷的同一平台上搜索服务的可扩展性、灵活性和可靠性

更为具体的内容请参考:http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/search_introducing.html

 

 

 

 

 

转载于:https://my.oschina.net/kt431128/blog/473916

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值