MapR融合平台上的Apache Apex

编者注:这篇嘉宾帖子由Charu MadanThomas Weise撰写。

在当今激烈的竞争和客户流失的世界中,电信提供商正在重塑和转型,以便能够为其客户提供最佳的客户服务和满意度。 主要目标是最大程度地减少这种流失并提高客户的生命周期价值。 利用大数据的力量以及连接结构化和非结构化数据源的能力,可为提供商提供前所未有的信息,这可以帮助提供商更好地为消费者服务。

但是,要实现这一目标,存在重大的技术和运营挑战。 并以完全容错的方式在规模为24 * 7的生产中大规模运行它会增加更多的复杂性。 这就是大多数技术屈服的地方。

在此博客中,我们将探讨3个关键方面:

  1. 探索一个电信用例,其中MapR Streams接收呼叫数据记录(CDR),并将其发送到Apache Apex核心处理框架,以进行重复数据删除,维度计算之类的分析,然后发送至DataTorrent Visual控制台以查看信息。
  2. 提供有关这两种技术极具互补性的详细信息,包括相对于其他技术的技术优势和架构优势
  3. Apache Apex简介,其重点是企业级,完全容错的数据处理引擎,该引擎提供了健壮的架构,并且可以扩展以满足电信和其他关键任务用例的严格需求

在电信行业中,获得客户的成本很高,但流失成本却高得多。 电信公司由于以下原因而失去客户:

  • 掉话
  • 缺乏网络覆盖导致不良的客户体验
  • 带宽问题
  • 下载时间差。
  • 服务等待时间过长
  • 客户服务代表训练有素吗?
  • 呼叫中心人员配备是否充足?
  • 是否有一些呼叫中心比其他的更忙? 我们需要洗牌吗

实时分析这些趋势并使用来自流和静态来源的不同来源的数据是获取网络运营效率洞察力并及时做出反应以影响客户满意度和成功的关键推动力。 此用例说明了解决上述问题的方案。 客户呼叫数据记录(CDR)和支持呼叫中心统计数据连续不断。 提供商希望通过主动评估性能并采取纠正措施来提供更好的客户体验。 分析包括监视掉话,带宽使用模式,不同服务中心之间的服务等待时间,跟踪服务呼叫完成后的客户满意度等。

顶点1

在这种情况下,Apex使用MapR流接收电信CDR记录和呼叫中心统计信息,然后对其进行处理,充实,并计算和存储多个维度的各种指标。 仪表板可视化可直接在Apex应用程序上运行,而无需将结果写入外部存储。 随着新数据的处理,数据可视化持续实时更新。 仪表板小部件还支持用户定义的查询,例如显示所选区域的所有掉线呼叫或服务等待时间。

由于该应用程序仅依赖于Apex并间接依赖于MapR的组件(Streams,YARN,MapR-FS),因此它可以利用基础架构的可伸缩性,性能和可操作性。

在此特定用例中,输入操作员会提取来自MapR流的CDR数据,然后再对数据进行充实。 管道的下一个阶段是用Geo标记数据,并计算相关的KPI。 计算之后,CDR数据和地理标签存储在MapR FS中。 然后,最终输出将显示在可视化用户界面中,该界面向用户显示关键指标,以使他们能够采取适当的业务行动。

顶点2

传统上,MapR专注于高性能和企业就绪性,文件系统(MapR-FS)是重要的基础。 随着新组件的添加,融合平台成为一个完整的集成堆栈,可满足大数据应用程序的所有基础架构需求。 最近的示例是MapR Streams的添加,这将丢失的消息片段添加到难题中。 核心功能是独一无二的跨数据中心地理分布复制和故障转移之类的功能。 有一些与RTS和Apex产生共鸣的关键主题,使其成为补充应用程序框架层的理想选择:

  • 专注于容错,高可用性,高性能和SLA支持。 专注于企业级的可操作性。
  • 通过Kafka 0.9 API支持直接支持Apex中的MapR流。 与MapR共同开发,认证和基准测试。 可以在此处找到示例项目。
  • DataTorrent RTS增加了针对MapR重点的用例构建实时可视化的功能,并提供了管理工具。
  • Apex通过Hadoop File System界面与MapR-FS兼容,并且该支持已通过认证。

Apache®Apex( http://apex.apache.org/ )是一个动态数据处理平台,它通过提供支持更多用例的应用程序开发框架来帮助释放Hadoop的潜力。 Apex具备基本功能,可用于低延迟处理无限数据,水平可伸缩性,高可用性,可操作性,并且重要的是,它具有通过连接器和功能构建块的全面库与现有企业基础架构集成的能力。

Apex的开发工作始于2012年的DataTorrent,旨在在Hadoop上本地运行。 通过YARN计划计算资源并管理进程,并且Hadoop文件系统用于检查点状态。 凭借其Hadoop本地体系结构,Apex可以充分利用基础架构的优势,并可以将收益传递给用户。

Hadoop基础结构最初仅支持MapReduce作为应用程序框架,这限制了用例和采用。 随着Hadoop 2.0的引入,提供了替代方案和新框架,这些框架和框架提供了更大的灵活性和功能,可以解决更多用例。 现在,越来越多的替代方案旨在填补更广阔的大数据生态系统中的这一空白。 Apache Apex具有用于快速和可扩展的内存中流处理的引擎。 它满足实时和批处理用例。 Apache Apex它旨在提供卓越的性能,企业就绪性和较低的进入门槛。 以下是一些关键的价值点:重点领域:

  • 容错性和高可用性,Apex保证不会丢失数据,计算状态和精确的一次语义 。 发生故障时,自动恢复将恢复状态并恢复处理。
  • 高性能,低延迟的流处理引擎,适合于低毫秒级的SLA要求。
  • 可伸缩性提供了高级分区方案和配置驱动的平台行为,而无需重写业务逻辑。
  • 基于Java,可被广泛使用的应用程序开发技能和第三方软件生态系统访问。 易于适应Java开发人员并允许重用现有功能的API。
  • 功能和操作规范分离,从平台角度看,没有范式限制(例如MapReduce)。 这显着提高了大数据项目的成功率。
  • 可供使用的构建块的广泛库,可以与解决相邻空间(数据库,消息传递等)中的问题的其他技术很好地集成。

顶点3

DataTorrent RTS在Apex之上提供组件来增强用户体验。 为了监视,管理和调试 Apex应用程序,管理控制台(dtManage)提供了功能齐全的GUI。 它通过开放式且经过认证的REST API来提供动力,该API是管理服务 (dtGateway)的一部分。 它通过无间断的安装过程,简化的管理和具有各种身份验证机制以及RBAC的全面安全支持,扩展了Apex的可操作性重点。

RTS产品中的另一个重要组件是数据可视化框架(dtDashboard),该框架旨在填补Hadoop在完整用户体验方面的另一个空白。 用户可以在仪表板中定义,以可视化Apex应用程序正在处理的数据。

总之,Apache Apex是用于流处理和分析的企业级应用程序框架。 它被用于财富100强企业的生产,任务和关键业务应用。 MapR融合平台(基础结构层)与Apache Apex(应用程序层)相结合可以为必须具有高性能,高可用性和无数据丢失的用例提供引人注目的优势。

翻译自: https://www.javacodegeeks.com/2016/05/apache-apex-mapr-converged-platform.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值