关闭

为什么商业Hadoop实现最适合用于企业部署

590人阅读 评论(0) 收藏 举报
分类:
摘要:MapReduce 实现是希望分析静止大数据的企业的首选技术。企业可以选择使用单纯的开源 MapReduce 实现(最著名的就是 Apache Hadoop),也可以选择使用商业实现。在这里,作者证明了以下情形:基于 Hadoop 的产品(比如 InfoSphere® BigInsights™)比分析是所有企业大数据部署的核心。关系数据库仍然是运行事务性应用程序的最佳技术(对于大多数企业当然是至关重要的),但谈到数据分析,关系数据库就显得有些压力。企业对 Apache Hadoop(或类似 Hadoop 的大数据系统)的采用反映了他们注重执行分析,而不是仅仅只注重存储事务。

要成功实现具有分析功能的 Hadoop 或类 Hadoop 系统,企业必须解决以下 4 个类别中的一些准备问题:

  • 安全性— 预防数据盗窃和控制访问
  • 支持— 文档和咨询
  • 分析— 企业需要的最少的分析特性
  • 集成— 与遗留或第三方产品集成,以实现数据迁移或数据交换

使用这 4 个类别作为比较的基础,本文将进行以下案例研究:企业为什么采用商业 Hadoop 产品(比如 InfoSphere BigInsights),而不是采用开源的 “普通” Hadoop 安装。

预防数据盗窃和控制访问

安全问题是 Hadoop 部署中的一个常见问题。根据设计,Hadoop 存储和处理来自多个来源的非结构化数据。这可能导致访问控制、数据授权和所有权问题。IT 经理需要控制对进入系统和离开系统的数据的访问。Hadoop(或类 Hadoop 环境)包含具有各种保密级别和敏感级别的数据,这一事实可能使访问控制问题恶化。最终导致数据盗窃、不当的数据访问或数据披露的风险。

数据盗窃是企业级别上的一个流行问题。企业 IT 系统经常遭受攻击。这些问题已在传统关系系统中得以解决。但为大数据系统实现解决方案有所不同,因为一些新的技术在发挥作用。默认情况下,大多数大数据系统均未对静止数据进行加密,这个问题必须首先解决。再次声明,关系系统已克服了类似问题。但考虑到类 Hadoop 系统还没有可用的集群管理工具,所以可能发生对数据文件或数据节点流程的不必要的直接访问。

此外,如果为分析而合并多个数据库,会创造了一个可能需要独立的访问控制的新数据集。现在,必须为这个数据源组合定义应用于各个数据源的角色。必须在技术或功能基础上为角色定义明确的边界。两种选择都不完美。在功能基础上建立角色可能助长对数据的窥探,但在合并了数据集后,管理员更容易实现它。技术基础可保护原始数据节点,但在合并节点后带来了访问问题。Hadoop Distributed File System (HDFS) 中内置的访问控制和安全特性无法解除这一困境。一些使用 Hadoop 的公司正在构建新环境来存储合并的数据集,或者正在通过自定义防火墙保护对合并数据的访问。

InfoSphere Guardium® Data Security等产品可施以援手,确保基于 Hadoop 的系统中的数据的安全。InfoSphere Guardium Data Security 通过一些特性自动化了异构环境中的整个合规性审计流程,这些特性包括敏感数据的自动发现、自动化的合规性报告,以及数据集访问控制等。

文档和咨询

缺乏文档是另一个常见的企业问题。角色和规范不断更改,顾问和员工相继离去。除非角色和规范进行了明确备案,否则在发生变更时,许多工作必须从头开始做起。这是开源 Apache Hadoop 的一个主要问题。与此相反,专为企业设计的基于 Hadoop 的结构化产品(比如 IBM InfoSphere BigInsights)可解决此问题,提供结构化的文档和企业级支持。事实上每项针对开源 Hadoop 版本的开发都适用于 BigInsights,因为 BigInsights 构建于 Apache Hadoop 之上,而 BigInsights 在此基础上还增添了上述优势。

通过部署 InfoSphere BigInsights 这样的产品,企业能够获得外部支持所提供的优势。出于业务原因,大型企业通常仅为核心 IT 功能保留一个支持团队。受其技术经验水平的限制,复杂的部署对这些团队而言几乎是不可能完成的。一些小型公司专门致力帮助大型公司执行复杂的 Hadoop 部署。但不能依靠小型公司来提供长期支持。因为他们可能不会存在太久。

著名供应商所提供的结构化的咨询和支持解决了这些问题。可部署、跟踪和支持一个标准的 Hadoop 版本,以满足企业需求和期望。外部顾问也可承担全职员工的角色 — 但要具有合适的技能集。而且他们可应用从各行各业获得的经验和最佳实践。考虑到大数据仍然是一个缺乏专业经验的新领域,这是一项特别重要的优势。大数据咨询也可满足内部团队的培训需求,可用来充实拓展员工的技能集。咨询师支持可用于扩展项目和常规维护。

通过分析创造业务价值

大数据部署与最大化信息增益密切相关。Apache Hadoop 为处理数据的以下三个方面提供了技术威力和基础架构:数据量 (volume)、种类 (variety) 和速度 (velocity)。但是,除非数据可供分析,否则对所有数据的积累和处理毫无意义。数据可能来自多个数据源:平面文件、数据库、打包的应用程序、企业资源规划 (ERP) 或客户关系管理 (CRM) 系统,或者数据流。第一项工作就是管理数据并存储它,而 Hadoop 很擅长这项工作。但数据管理和存储本身没有提供任何业务价值。业务价值来源于对数据的分析。(这是关系数据库的薄弱之处。它们可存储海量数据,但无法实时地、高效地处理它们。)

要分析存储在 Hadoop 中的数据,为该用途设计的应用程序必须构建于 Hadoop 之上。它们可能是统计数据可视化工具或分析工具。如果它们不是从头构建的,那么 IBM SPSS、SAS 或 R 等软件必须通过 API 链接到 Hadoop。甚至 Google(它发明了 MapReduce)现在也仅使用它来收集和整理数据。对于分析,Google 使用 Dremel,这是一个分析只读的嵌套数据的可伸缩查询系统。

企业(甚至是不属于处理 PB 级数据的大规模互联网公司的企业)仍然拥有大量的分析使用情形,包括:

  • 金融服务中的风险分析
  • 欺诈检测
  • 程序性的瞬间交易
  • 为保险用途而理解客户行为
  • 理解客户行为以改进信用风险管理
  • 分析高速服务业务中的供应商绩效,或者为优化相关服务而分析供应商绩效
  • 医疗分析
  • 制造和监视智慧 产品,比如嵌入了射频 ID (RFID) 标记的产品(比如快递服务或库存系统)
  • 成本管理
  • 传感器数据分析
  • 用于营销用途的客户交易分析(例如在电信行业,商家常常基于流行的客户趋势而提供通话和数据服务包)
  • 通过社交媒体执行营销活动

传统的数据分析或商业智能工具无法分析用于这些用途的海量数据。您使用的软件不仅必须能够执行大规模分析,还必须能够下钻到某些细节,以确定实现分析的业务用途所需的操作。此功能(获取实用的信息金块)是分析的必杀技能。它也是大多数大数据分析的薄弱之处。您不能首尾兼顾:您执行的大规模分析越多,下钻细节的能力就越弱,反之亦然。

InfoSphere BigInsights 支持执行大规模分析和获取深入洞察。通过使用所包含的 Hadoop 实现,InfoSphere BigInsights 充分考虑了大量数据的探索性分析,实现了以前不可能获得的多结构数据洞察。它支持内置的数据压缩和特性,比如 JSON 查询语言 (JAQL),支持轻松地操作和分析半结构化的 JSON 数据。在此基础之上,它提供了基于 MapReduce 的文本和机器学习分析。这非常重要,因为在尝试从大规模数据获取洞察时,通常不可能知道到底要寻找什么。机器学习对发现和预测模式与趋势,以及从非结构化数据中提取统计模型(如果有)很有用。

与遗留系统和第三方系统集成

出于实际原因,ERP 软件等高级应用程序目前无法在 Hadoop 基础之上构建。相反,来自第三方系统的数据必须与类 Hadoop 系统无缝地集成。引入基于 Web 的数据的最常见方法是通过 SOAP。对于其他应用程序,需要采用主要使用 Java™、.NET 或 C++ 构建的专业连接器。您可以开发这些自定义集成程序或使用 IBM Netezza 等产品。除了提供大量的并行化的高级和预测算法之外,Netezza 还使您能够使用众多编程语言创建自定义分析(包括 C、C++、Java、Perl、Python 和 R)。它支持集成 SPSS® 或来自 SAS、Revolution Analytics (for Enterprise R)、Fuzzy Logix 和 Zementis 等公司的分析软件。其程序化的接口还支持与几乎所有具有 C 和 Java 连接器(比如 SAP 的 Jco Java 连接器)的 ERP 系统进行集成。

InfoSphere BigInsights 在第三方集成类别上更进一步,不但支持 IBM 的 Hadoop 发行版,还支持 Cloudera 的 Hadoop 发行版。Cloudera 支持很重要,因为 Cloudera 拥有庞大的客户群。现在这些客户可以轻松地使用 BigInsights 工具。

对于来自多个来源的数据流,BigInsights 可直接连接到 DB2®、Netezza 和 PureData™。它还附带了 BigIndex,这是一个为基于搜索的分析应用程序构建索引的 MapReduce 工具。

结束语

充分利用了集成分析功能的 Hadoop 非常适合企业用途。普通的 Hadoop 无法轻松地利用分析应用程序,它们自身没有提供业务价值。从头开发分析特性以及跨应用程序特性和支持来支持普通的 Hadoop 是一项艰巨的、耗时的、可能极为昂贵的任务。企业 Hadoop 产品(比如 InfoSphere BigInsights)解决了与部署有关的技术问题,使咨询变得很容易并且可以持续,而且还能够与大量遗留系统和现代系统无缝集成。企业 Hadoop 包含尖端的分析工具,可从数据本身中获取洞察,并将洞察与互联网数据和传感器数据相结合,收集隐藏的实用信息金块。

 

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:1330074次
    • 积分:18487
    • 等级:
    • 排名:第493名
    • 原创:772篇
    • 转载:28篇
    • 译文:18篇
    • 评论:326条