- 博客(43)
- 收藏
- 关注
原创 Hadoop生态组件Yarn之长期运行服务支持篇!
众所周知,Yarn是大数据核心调度组件,其使用覆盖率非常高。在“Hadoop是否已失宠”的选题调研中,不少专家都对Yarn这一核心组件的生命力表达了自己的看法。 阿里云技术专家封神认为,Yarn在离线与在线数据混合方面表现欠佳,但这也是其背景使然,支持Yarn的几家公司主要做离线系统,对在线系统部署问题关注不够。当然,目前市场已经存在具备一定竞争关系的产品,比如Mesos,但这两大调度系统...
2019-05-02 21:59:36
1145
原创 人工智能和大数据的开发过程中,六大注意要点
人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考。 Pedro Domingos教授的观点概括下来,可以提炼出6个注意点,为行业开发实践提供了重要参考: 注意点1:你的数据未必可靠 在实际应用中,有很多各种各样的原因会导致你的数据是不可靠的。因此,当你将数据用于解决问题前,必须经常留心来检查数据是否值得信赖。 如果基于糟糕的数据来挖掘,无论多么聪明...
2019-05-02 21:58:43
532
原创 Spark Streaming 在数据平台日志解析功能的应用
目前支持解析的日志类型包括:Hive 任务、Spark 任务、Datay 增量任务、导入任务、导出、MR 任务、Hbasebulk、脚本任务等。dataplatform 支持的调度类型为:批量重跑、测试类型、正常调度和手动导入任务。一、日志解析功能的背景通过日志,我们可以获得很多有用的信息,最常见的日志信息包括应用产生的访问日志、系统的监控日志,本文所针对的日志是大数据离线任务产生的运行日...
2019-05-02 21:58:18
849
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅