自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (10)
  • 收藏
  • 关注

原创 基于Impala的网易有数BI查询优化总结

本文总结了Impala在网易有数BI应用场景下的最新查询优化经验,并探讨后续进一步优化的思路。文章首先简述有数BI + Impala在网易云音乐等业务使用时遇到的挑战,再介绍进行有数查询优化的重要工具——网易Impala管理服务器,最后结合实际业务问题讨论具体优化方法及下一步计划。

2021-02-22 17:25:56 9862 1

原创 效能提升30%、埋点线下bug率下降50%,网易云音乐数仓建设之路

数据仓库是当前数据中台体系的核心组件之一,也是网易云音乐数据化运营的发动机,本文总结了 2020 年网易云音乐数据仓库团队的一些核心工作、取得的进展以及相关实践经验,希望对读者有所启发。2020 年已结束,网易云音乐(以下简称云音乐)数据仓库团队取得了较为满意的成绩,也获得不小的成长。回顾团队过去一整年的工作,我们主要聚焦于两件事: 数据交付提效 数据质量提升 交付提效我于 2019 年加入云音乐,当时数仓团队给我的第一印象是忙碌、年轻,这群基本都是 90 后的年轻人每天都会加班

2021-02-20 10:45:59 9263 1

原创 Slime:让 Istio 服务网格变得更加高效与智能

Slime 是网易数帆旗下轻舟微服务团队开源的服务网格组件,它是一个为简化云原生而生的智能网格管理器,可以通过服务监控自动感知服务状态智能调整服务治理策略,实现Istio/Envoy的高阶功能。目前slime 包含三个非常实用的子模块:配置懒加载:无须手动配置 SidecarScope,按需加载配置和服务发现信息 Http插件管理:使用新的 CRD pluginmanager/envoyplugin 包装了可读性,可维护性较差的 envoyfilter,使得插件扩展更为便捷 自适应限流:结合监控

2021-02-18 12:03:27 9094

原创 数据沙箱在大数据生产、测试物理集群隔离场景中最佳实践

网易有数大数据平台,引入了一种“数据沙箱”的机制,将代码与代码运行所需要的数据、环境变量解耦,根据代码的运行环境,自动关联所需要的数据和环境变量。一套代码,可以在不同的环境之间,无缝切换。下面,我们重点介绍一下,数据沙箱在生产、测试物理集群隔离场景下的应用。

2021-02-08 18:01:09 16060

原创 海量数据时代,谁能终结污染数据爆发式的扩散?

2020年初新冠疫情爆发,然后迅速在全球范围内扩散,其蔓延速度之快、后果之严重令人生畏。在大数据领域,也存在着类似的扩散问题(异常数据流向下游),其带来的危害有时也是灾难性的。面对这样的问题,我们又该如何解决?本文就对该问题,说明网易有数大数据平台是如何解决离线开发中的快速阻断和高效恢复。

2021-02-07 18:06:20 10204

原创 网易数帆基于 Kubernetes 的 Redis 云原生实践综述

Operator就是“有状态应用容器化”的一个优雅的解决方案,本文将介绍网易数帆旗下的轻舟中间件基于Operator的Redis容器化实践。

2021-02-02 18:11:23 12527 1

网易数据产品实践@网易数帆技术沙龙.pdf

顾平 |《网易数据产品实践》@网易数帆技术沙龙 议题介绍:网易互联网业务正走向“数据中台支撑+数据产品驱动”的双引擎模式,释放数据价值以支持创新业务的探索,本议题将结合网易严选的业务实践,分享覆盖营销和供应链的数据产品体系建设思路与步骤,并介绍作为支撑的数据中台及数据治理的相关经验。 嘉宾简介:顾平,网易数帆大数据产品专家,7年大数据从业经验,2017年至2020年就职于网易严选,担任数据产品负责人,从0到1构建了网易严选的数据产品体系和数据中台体系。目前就职于网易数帆,担任网易有数·BI产品负责人。

2021-06-24

网易云音乐数仓建设之路@网易数帆技术沙龙.pdf

雷剑波 | 《网易云音乐数仓建设之路》@网易数帆技术沙龙 议题介绍:随着业务的发展,各部门对数据的需求日益强烈,网易云音乐希望通过统一的数仓体系建设来降低数据使用门槛,提升决策利用效果,并实现数据驱动业务增长,本议题将从流量数据治理和数据资产沉淀两方面,分享网易云音乐应对挑战的实践和思考,以及取得的成果。 嘉宾简介:雷剑波,网易云音乐数据专家,长期从事大数据开发、数仓体系建设,聚焦模型设计、数据规范、数据应用、数据治理等方向。目前主要负责网易云音乐主App的数仓体系架构和数据埋点体系升级等工作。

2021-06-24

利用Intel Optane PMEM技术加速大数据分析.pdf

徐铖 | 《利用Intel Optane PMEM技术加速大数据分析》 议题介绍:分享如何使用Intel开源项目Optimized Analytics Package (OAP)加速Spark、Flink的性能,介绍现有Spark框架在内存管理、Shuffle实现等层面性能有进一步提升的空间,以及如何更好利用新硬件,比如利用Intel Optane PMEM(持久化内存)技术上,Spark有诸多进一步优化的功能点。 嘉宾简介:徐铖,Intel资深软件开发工程经理,现供职于Intel上海研发有限公司,现主要专注于大数据领域中基于英特尔平台技术进行优化。在这之前从事过Intel Hadoop发行版的核心开发以及相应大数据领域的社区工作,是Apache Commons/ORC/Hive的Committer也是Spark的Contributor,同时也是《持久内存架构与工程实践》的作者之一。

2021-06-24

ClickHouse在有赞的使用和优化.pdf

陈琦 | 《ClickHouse在有赞的使用和优化》@网易数帆技术沙龙 议题介绍:ClickHouse在有赞的发展,平台化建设,DMP,SCRM,CDP等场景落地和优化。千亿级别数据量的离线读写分离,解决写多读少的业务发展问题。自研新数据库的探索POC,尝试去融合Doris和ClickHouse。 嘉宾简介:陈琦,有赞基础架构组OLAP负责人,十年以上工作经验。ClickHouse,Druid,Presto,Flink等项目Contributor。目前在有赞负责OLAP平台和组件优化等相关工作。

2021-06-24

Kyuubi:开源企业级Serverless Spark框架.pdf

姚琴 | 《Kyuubi:开源企业级Serverless Spark框架》@网易数帆技术沙龙 议题:网易集团每日有数十万 Spark 类型的任务,这给服务端的运维及调优带来了巨大挑战。为支持业务避开底层技术和框架选型,直接享受到前沿技术,网易数帆开发了企业级 Serverless Spark 和数据湖探索框架Kyuubi,并将其开源。 嘉宾:姚琴,网易数帆大数据专家,Apache Spark Committer / Apache Submarine Committer。

2021-06-24

网易数帆开源分布式存储Curve监控、运维与质量体系.pdf

介绍Curve使用的一些监控和运维方案以及质量控制方法。 - 监控体系总体介绍。 - 前端展示,结合例子展示怎样通过Grafana完成数据可视化。 - 后端监控架构,监控体系架构及各个组件之间的联系。 - Curve metric介绍,在Curve中怎样统计metric,使用了哪些类型的metric等。 - 运维管理,包括Curve上架标准,运维规范,应急预案等。 - 运维工具,包括curve-ansible部署工具,curve_ops_tool管理员工具等。 - 日志管理,ELK日志平台展示。 - 质量控制理论体系,Curve的单元测试,集成测试和系统测试方法。 - Curve流程控制。

2020-12-13

网易数帆开源分布式存储Curve快照克隆子系统SnapshotClone.pdf

介绍Curve快照克隆服务器,包括: 快照克隆服务器整体架构。 Curve快照和克隆的特点。 快照总体流程介绍,从用户触发快照开始,介绍每个阶段的流程。 介绍ChunKServer端的快照机制,包括snap chunk的数据组织以及写时复制机制的实现。 克隆总体流程介绍,从用户触发克隆卷开始,介绍每个阶段的流程。 介绍ChunkServer端的克隆机制,包括clone chunk的数据组织与读时复制机制的实现。

2020-12-13

网易数帆开源分布式存储Curve核心组件之ChunkServer数据节点.pdf

介绍Curve的数据节点ChunkServer,包括: - ChunkServer整体架构,自顶向下介绍每个模块的功能。 - ChunkServer的注册和心跳。 - CopysetNode,介绍ChunkServer中的Copyset实例工作流程,与braft交互的方式(建议提前了解一下raft一致性协议)。 - DataStore模块,介绍ChunkServer中底层Chunk文件组织形式,ChunkFilePool介绍等。 - 新版本ChunkServer性能优化,介绍通过覆盖写减少WAL写放大的方案以及优化后的测试结果。

2020-12-13

Curve核心组件之MDS元数据节点-陈威-网易数帆.pdf

介绍Curve的元数据节点MDS,包括: MDS总体介绍。 Topology模块,包括MDS管理的Curve拓扑结构,故障隔离等。 NameServer,用于保存Curve中文件和目录的层级结构以及分配信息等元数据。 Copyset,介绍Curve中Chunk的副本管理方式,Copyset的概念,生成方式,与Chunk和ChunkServer的关系等。 HeartBeat模块,介绍MDS如何通过心跳管理ChunkServer的在线状态,各个状态之间的转换方式等。 调度模块Scheduler,介绍MDS如何通过调度实现系统的自动容错和负载均衡。

2020-12-13

Curve:新一代分布式存储系统设计要点

对网易数帆开源的新一代分布式存储Curve做一个总体的介绍,包括: Curve出现的背景,为什么不基于已有的存储改造或直接使用已有存储,而是从0到1开发Curve。 Curve的总体设计,主要介绍软件基本架构,数据的组织形式,拓扑结构,以及总体的IO流程,其中IO的细节将在后面的系列讲座中介绍。 Curve的系统特性,主要介绍Curve在高性能(包括当前最新版本v1.1.0-beta的测试数据)、高可用、自治、易运维、高质量这几个方面是如何体现的以及它们的一些关键实现方式。 最后会说明下Curve的近期规划,期待感兴趣的小伙伴加入我们。

2020-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除