4大商业智能趋势:商业智能遇到大数据时(第1部分,共4部分)

商业智能(BI)是数据处理中最古老的概念之一,正在经历彻底的革新。

自从1990年代初开始流行以来(特别是自1865年在《 商业与商业轶事百科全书》中 首次提及以来),这个概念已经有了长足的发展。 实际上,自最早的计算时代开始,就一直在挖掘交易数据以获取业务洞察力。 决策支持系统在1960年代部署在大型机上。 所谓的“执行信息系统”在1980年代短暂流行,当时IBM还创造了“信息中心”一词来描述一类情报构建工具。 随着1990年代功能更强大的图形在PC上的出现,BI激增到商业用户市场,有望在今年成为 170亿美元的产业。

4hotbitrend_trend1

但是,在过去的大部分时间里,BI都仅限于内部数据分析,其重点是提高运营效率。 一个典型的例子是根据历史数据改进有关库存分配的决策。 但是,BI的承诺一直不仅仅在于增加收益。 一个具有开创性的寓言是一个故事, 最早是在1996年的《金融时报》上讲述的 ,这是关于啤酒和尿布销售之间不太可能的联系。 事实证明,两种彼此无关的产品经常串联销售。 尽管故事的细节多年来被夸大了,但要点很重要:数据分析可以揭示对于人类观察者而言并不明显的关联。

直到最近,由于缺乏以和谐格式轻松访问其他来源的数据的能力,BI一直主要局限于内部数据。 但是现在情况正在发生变化。 像Hadoop这样的大数据平台使非结构化和结构化数据的组合成为可能,从而在查询和算法操纵方面创造了前所未有的灵活性

例如,诸如Twitter和Instagram之类的社交媒体渠道基本上由非结构化数据组成,但是语言分析,情感分析以及半结构化数据类型(例如标签,URL,转发标签和用户句柄)可以创建一个框架来理解所讲的内容。 一旦该结构就位,就可以与公司数据库中的结构化信息相关联。 搜索引擎还以索引和将文本字符串存储为数据元素的方式为自由格式的数据带来了结构元素。 实际上,Hadoop是基于搜索引擎构造的。

结构化和非结构化数据的合并为BI开辟了广阔的前景。 例如,我们现在可以监视客户和合作伙伴对我们的公司和竞争对手的评价,并将其与销售模式进行比较。 我们可以结合已发布的第三方研究成果和基于按需付费的基础发布的大量基于云的外部数据库,以建立更完整的客户和市场概况。 而且我们可以将所有这些东西结合起来,以进行多维分析和假设查询。

商业用户也越来越容易使用BI。 诸如Tableau之类的公司正在构建可视化引擎,使没有数据科学背景的人们可以将来自多个来源的数据混合在一起,并绘制相互依赖的图表。 新兴的特殊服务可以在云中提供分析以供垂直或功能使用。 这些服务中的许多服务都聚集了来自数百个来源的数据,从而为客户节省了查找和许可信息的麻烦,并使他们能够将其与自己的运营数据融合在一起。 IDC估计 70%的大型组织已经购买了外部数据,而100%的企业将在2019年之前购买外部数据。

需要结构

如此庞大的新数据源确实带来了一些组织和治理方面的挑战。 直到大约五年前,BI功能通常都存在于IT组织中。 用户定义了他们的数据需求,IT专业人员负责将所有内容提取,转换和加载(ETL)到分析引擎中。 该过程是结构化且可预测的,但只能从有限的数据集中获得有限的见识。

这个旧流程不适合新动态,因为新动态中用户希望尝试使用非常规数据源和组合,例如将标签和天气模式与购买行为相关联。 “数据湖”是满足这些需求的一种越来越流行的方法。 将数据湖视为分析的过渡区域。 使用像Hadoop这样的低成本且可扩展的存储层,组织可以使用元数据和基本组织的唯一标识符将数据从许多来源倒入一个公共池中。 用户可以将这些数据的子集提取到他们的分析模型中进行实验,而无需花费时间和麻烦来创建正式的模式。

数据湖具有多种优势。 它们无需费时的架构定义即可轻松处理多种源和格式。 它们的低成本使用户可以尝试新的资源而不会产生开销。 它们是正式数据仓库模型的自然过渡阶段。

数据湖通常包含三类数据:原始数据,派生数据和汇总数据。 这三者可以在同一个地方组合在一起并服务于不同的应用程序。 数据湖可以用作数据仓库的暂存区域,以将原始数据转换为详细记录,其附带好处是仍可以使用历史原始数据。 这样,数据湖既可以支撑数据仓库,又可以备份数据仓库。

这种方法让位于一种新的商业智能形式,有时称为“敏捷或探索性BI”。 业务端分析师可以在沙盒环境中使用非结构化或半结构化数据来发现有用的新信息源。 然后可以将它们提取到正式模式中。 借助大数据的经济性,可以测试各种各样的数据源,并且永远不会丢弃原始数据。

尽管您不需要数据湖即可启用大数据分析,但肯定有一个。 以下是一些需要牢记的准则:

  • 长期重新考虑数据。 降低了获取和存储数据的障碍,这意味着您现在可以负担得起的方式将更多的数据源摄取到数据湖中,并保持更长的时间。 与YARN资源管理器结合使用时,Hadoop可以同时服务许多不同的工作负载。 将您的数据湖视为多个应用程序的中央存储库。 这减少了重复和ETL工作。
  • 针对所有权,管理权,角色和授权等问题采取治理措施。 首先要弄清楚如何使用数据以及由谁来防止以后出现很多混乱。
  • 首先要解决安全问题,请记住,不同类型的数据需要不同的安全参数。 例如,详细的交易记录可能同时需要加密和双重身份验证,而摘要记录可能根本不需要安全性。 考虑将数据湖划分为单独的安全区域,以简化管理。

下载免费书籍以了解更多信息:《数据湖上的BI和分析权威指南》

翻译自: https://www.javacodegeeks.com/2016/10/4-hot-business-intelligence-trends-business-intelligence-meets-big-data-part-1-4.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值