自助式分析大数据
Qubole被称为用于分析,人工智能和机器学习的云原生数据平台,为客户参与,数字转换,数据驱动的产品,数字营销,现代化和安全智能提供解决方案。 它声称具有快速实现价值的速度,多云支持,10倍的管理员生产力,1:200的运营商与用户比率以及更低的云成本。
根据我对平台的简要经验,Qubole实际要做的是集成许多开源工具和一些专有工具,从而为数据分析师,数据工程师创建基于云的自助式大数据体验和数据科学家。
Qubole将带您从ETL开始,进行探索性数据分析和模型构建,再到按生产规模部署模型。 在此过程中,它可以自动执行许多云操作,例如资源调配和扩展,否则可能需要大量的管理员时间。 对于任何特定的公司或用例,这种自动化是否实际上将使管理员的生产率提高10倍,还是使运营商与用户的比例达到1:200尚不清楚。
Qubole倾向于强调“活动数据”的概念。 基本上,大多数数据湖(实际上是文件存储,其中填充了来自许多来源的数据,全部都集中在一个地方而不是一个数据库中),具有很少的数据被主动用于分析。 Qubole估计大多数数据湖的活动性为10%,非活动状态为90%,并预测它可以逆转该比率。
Qubole的竞争对手包括Databricks,AWS和Cloudera。 还有许多其他产品只能与Qubole的某些功能竞争。
Databricks在集群管理器和Spark的基础上构建笔记本,仪表板和作业; 当我在2016年对其进行评论时 ,我发现它对数据科学家来说是一个有用的平台。Databricks最近开放了其Delta Lake产品的开源,该产品提供ACID事务,可伸缩的元数据处理以及对数据湖的统一流和批处理数据处理,以使其更加可靠。并帮助他们进行Spark分析。
AWS有各种各样的数据产品,实际上Qubole支持与其中许多产品集成。 现在包括Hortonworks在内的Cloudera提供数据仓库和机器学习服务以及数据中心服务。 Qubole声称Databricks和Cloudera都缺乏财务治理,但是您可以自己在单云级别或通过使用多云管理产品来实施治理。
Qubole的工作原理
Qubole将其所有工具集成在基于云和基于浏览器的环境中。 我将在本文的下一部分中讨论环境的各个部分。 在本节中,我将重点介绍工具。
Qubole将成本控制作为其集群管理的一部分。 您可以指定群集使用实例类型的特定组合,包括现货实例(如果可用)以及用于自动缩放的最小和最大节点数。 您还可以指定任何群集在没有负载的情况下继续运行的时间长度,以避免出现“僵尸”实例。
火花
在他8月份的InfoWorld文章“ Qubole如何解决Apache Spark的挑战”中 ,Qubole的首席执行官Ashish Suchoo讨论了Spark的好处和陷阱,以及Qubole如何补救诸如配置,性能,成本和资源管理之类的难题。 对于数据科学家来说,Spark是Qubole的关键组件,可以轻松快速地进行数据转换和机器学习。
普雷斯托
Presto是一个开放源代码的分布式SQL查询引擎,用于对从千兆字节到PB大小在内的各种大小的数据源运行交互式分析查询。 Presto查询的运行速度比Hive查询快得多。 同时,Presto可以查看和使用Hive元数据和数据架构。
蜂巢
Apache Hive是Hadoop生态系统中一个受欢迎的开源项目,该项目有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 配置单元查询执行通过Apache Tez,Apache Spark或MapReduce运行。 Hive on Qubole可以进行工作负载感知的自动缩放和直接写入; 开源Hive缺乏这些面向云的优化。
Qubole的创建者也是Apache Hive的创建者。 他们在Facebook上创立了Hive,并于2008年开源。
量子
Quantum是Qubole自己的无服务器,自动缩放,交互式SQL查询引擎,同时支持Hive DDL和Presto SQL。 Quantum是一种即用即付的服务,它对于散布在很长一段时间内的零星查询模式具有成本效益,并且具有严格的模式来防止意外支出。 昆腾使用Presto,并补充了Presto服务器群集。 量子查询仅限于45分钟的运行时间。
空气流动
Airflow是基于Python的平台,可通过编程方式创作,安排和监视工作流程。 工作流程是任务的有向无环图(DAG)。 您可以通过用Python代码编写管道来配置DAG。 Qubole提供Airflow作为其服务之一; 它通常用于ETL。
新的QuboleOperator可以像其他任何现有Airflow操作器一样使用。 在工作流中执行操作员期间,它将向Qubole Data Service提交命令,并等待命令完成。 Qubole支持文件和Hive表传感器,Airflow可以使用它们来以编程方式监视工作流。
要查看Airflow用户界面,您首先需要启动一个Airflow集群,然后打开集群页面以查看Airflow网站。
Ruby
RubiX是Qubole的轻量级数据缓存框架,可以由使用Hadoop文件系统接口的大数据系统使用。 RubiX旨在与Amazon S3和Azure Blob存储等云存储系统一起使用,并在本地磁盘上缓存远程文件。 Qubole已将RubiX开源 。 在Qubole中启用RubiX只需选中一个复选框即可。
Qubole是做什么的?
Qubole提供了一个用于分析和数据科学的端到端平台。 该功能分布在十几个模块中。
浏览模块可让您查看数据表,添加数据存储并设置数据交换。 在AWS上,您可以查看数据连接,S3存储桶和Qubole Hive数据存储。
通过“分析”和“工作台”模块,您可以对数据集运行临时查询。 Analyze是旧界面,而Workbench是新界面,当我尝试它时仍处于beta中。 这两个界面都允许您将数据字段拖放到SQL查询中,并选择用于运行操作的引擎:Quantum,Hive,Presto,Spark,数据库,shell或Hadoop。
Smart Query是Hive和Presto的基于表单SQL查询构建器。 模板允许您重复使用参数化SQL查询。
笔记本电脑是基于Spark的Zeppelin或(测试版)Jupyter笔记本电脑,用于数据科学。 仪表板提供了一个界面,用于共享您的浏览记录,而不允许您访问笔记本。
通过Scheduler,您可以定期自动运行查询,工作流,数据导入和导出以及命令。 这可以补充您可以在“分析”和“工作台”模块中运行的即席查询。
群集模块允许您管理Hadoop / Hive,Spark,Presto,Airflow和深度学习(beta)服务器的群集。 使用情况可让您跟踪集群并查询使用情况。 通过控制面板,您可以自己配置平台,也可以在拥有系统管理权限的情况下配置其他平台。
Qubole端到端演练
我经历了导入数据库,创建Hive模式以及使用Hive和Presto以及分别在Spark笔记本中分别分析结果的演练。 我还查看了用于相同过程的Airflow DAG,以及用于通过无关数据集上的Spark进行机器学习的笔记本。
Qubole的深度学习
我们已经看到Qubole中的数据科学达到了经典机器学习的水平,但是深度学习又如何呢? 在Qubole中完成深度学习的一种方法是在笔记本中插入Python步骤,以导入诸如TensorFlow之类的深度学习框架,并将其用于Spark已经设计的数据集。 另一个假设您的Qubole安装在AWS上运行,则从笔记本或Airflow调出Amazon SageMaker 。
您在Qubole中所做的大多数事情都不需要在GPU上运行,但是深度学习通常确实需要GPU,以允许训练在合理的时间内完成。 Amazon SageMaker通过在单独的集群中运行深度学习步骤来解决此问题,您可以根据需要配置这些集群中的节点和GPU。 Qubole还提供了机器学习集群(测试版); 在AWS上,它们允许使用Nvidia GPU加速g型和p型工作器节点;在Google Cloud Platform和Microsoft Azure上,它们允许等效的加速工作器节点。
云中的大数据工具包
Qubole是用于分析和机器学习的云原生数据平台,可帮助您将数据集导入数据湖,使用Hive构建架构以及使用Hive,Presto,Quantum和Spark查询数据。 它同时使用笔记本电脑和Airflow来构建工作流程。 它还可以调出其他服务并使用其他库,例如Amazon SageMaker服务和TensorFlow Python库进行深度学习。
Qubole通过控制集群中实例的混合,按需启动和自动扩展集群以及在不使用集群时自动关闭集群,来帮助您管理云支出。 它运行在AWS,Microsoft Azure,Google Cloud Platform和Oracle Cloud上。
总体而言,Qubole是利用(或“激活”)数据湖,隔离的数据库和大数据的一种非常好的方法。 您可以选择带有示例数据的AWS,Azure或GCP, 免费试用14天的Qubole驱动器 。 您还可以使用自己的云基础架构帐户和自己的数据为最多五个用户和一个月安排一次免费的功能齐全的试用版。
-
费用:免费提供测试和试用帐户。 企业平台,每个QCU(Qubole计算单元)每小时$ 0.14。
平台: Amazon Web Services,Google Cloud Platform,Microsoft Azure,Oracle Cloud。
翻译自: https://www.infoworld.com/article/3449896/qubole-review-self-service-big-data-analytics.html
自助式分析大数据