每日一读
forever428
这个作者很懒,什么都没留下…
展开
-
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
文章目录问题导读:一.OPPO 实时数仓的演进思路1.1.OPPO 业务与数据规模1.2.OPPO 数据中台1.3. 构建 OPPO 离线数仓1.4. 数仓实时化的诉求1.5. 离线到实时的平滑迁移1.6. 构建 OPPO 实时数仓二. 基于 Flink SQL 的扩展工作2.1.Why Flink SQL2.2. 基于 WEB 的开发 IDE2.3.AthenaX:基于 REST 的 SQL 管...转载 2019-09-20 09:28:59 · 248 阅读 · 0 评论 -
快手 HBase 在千亿级用户特征数据分析中的应用与实践
1.快手千亿级日志面临着哪些挑战? 2.技术选型和解决方案有哪些? 3.最终的业务效果是什么样的? 4.针对目前面临的业务场景未来的规划是怎样的? 快手建设 HBase 差不多有2年时间,在公司里面有比较丰富的应用场景:如短视频的存储、IM、直播里评论 feed 流等场景。本次只分享其中的一个应用场景:快手 HBase 在千亿级用户特征数据分析中的应用与实践。为什么分享这个 Topic?主要原因...转载 2019-09-23 16:01:24 · 811 阅读 · 1 评论 -
分布式机器学习之——Spark MLlib并行训练原理
1.Spark的分布式计算如何实现? 2.Spark MLlib如何并行训练? 3.Spark MLlib并行训练的局限性有哪些? 这里是 王喆的机器学习笔记 的第二十五篇文章。接下来的几篇文章希望与大家一同讨论一下机器学习模型的分布式训练的问题。这个问题在推荐、广告、搜索领域尤为突出,因为在互联网场景下,动辄TB甚至PB级的数据量,几乎不可能利用单点完成机器学习模型的训练,分布式机器学习训练成...转载 2019-09-24 08:58:15 · 1875 阅读 · 0 评论 -
Hadoop的元数据治理--Apache Atlas
Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 Apache Atlas目前是Apache下的孵化项目,最新版本为Apache Atlas 0.8: 概述 面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它...转载 2019-09-27 13:18:25 · 803 阅读 · 0 评论