大数据
文章平均质量分 92
网易杭研
网易杭州研究院,简称“杭研”,是⽹易集团重点投⼊且唯一的研究院机构,定位于创新业务孵化、基础技术平台研发和前沿技术研究,2019年被认定为“国家企业技术中⼼”。
杭研是网易内部的基础技术研发中⼼和前沿技术研究中心,在云计算、⼤数据、安全、人工智能、移动互联⽹和前端等方面进⾏前沿技术研究、关键技术攻关和基础技术平台研发,服务⽹易系游戏、邮箱、音乐、电商、新闻、有道等产品,触达近10亿⽤户。
同时,杭研⼜是网易新业务的孵化器,已成功孵化云⾳乐、云课堂、严选、考拉海购等产品,⽬前杭研事业群下设有元气事业部、数字产业事业部、智慧企业事业部、易盾事业部为集团孵化更多C端/B端创新业务。
展开
-
有数BI大规模报告稳定性保障实践
本文主要结合实践总结了大规模报告稳定性保障方法。项目背景随着数据化管理思维的逐渐深入人心,无论是网易集团内部用户还是外部商业化客户,越来越多的人在大规模使用有数BI。以严选为例,日常有访问量的报告有5w+,这些报告覆盖了用户、商品、渠道、流量、营销、仓储、供应商、财务等几乎所有业务板块,有些报告嵌入在管理层用的app中,有些报告用在了业务周会或复盘会,有些报告嵌入业务系统辅助业务决策…,在日常工作中发挥着重要的作用,高峰期图表日查询量10w+,这给报告的稳定性保障带来很大的挑战。报告的稳定性保障,.原创 2022-05-17 14:45:51 · 1111 阅读 · 0 评论 -
T3 出行 Apache Kyuubi Flink SQL Engine 设计和相关实践
在日前的 Apache SeaTunnel & Kyuubi 联合 Meetup 上,T3出行大数据平台负责人、 Apache Kyuubi committer 杨华和T3出行高级大数据工程师李心恺共同分享了 Apache Kyuubi(Incubating) 在T3出行的最新实践与应用,包括基于 Kyuubi 设计的 Flink SQL Engine,Kyuubi 与 Apache Linkis 的集成,以及在T3出行的落地实践。JDBC 之于 Flink 的现状首先我们来聊一下 Apac.原创 2022-03-30 16:56:41 · 2247 阅读 · 1 评论 -
eBay 基于 Apache Kyuubi 构建统一 Serverless Spark 网关的实践
本文来自 eBay 软件工程师、Apache Kyuubi PPMC Member王斐在Apache SeaTunnel & Kyuubi 联合 Meetup的分享,介绍了Apache Kyuubi(Incubating)的基本架构和使用场景,eBay基于自身的需求对Kyuubi所做的增强,以及如何基于Kyuubi构建Unified & Serverless Spark Gateway。Kyuubi是什么首先介绍一下Kyuubi。Kyuubi是一个分布式的Thrift JDBC/OD.原创 2022-03-25 11:54:42 · 1795 阅读 · 0 评论 -
Spark on Kubernetes 与 Spark on Yarn 不完全对比分析
前言Apache Spark 是目前应用最广泛的大数据分析计算工具之一。它擅长于批处理和实时流处理,并支持机器学习、人工智能、自然语言处理和数据分析应用。随着 Spark 越来越受欢迎,使用量越来越大,狭义上的 Hadoop (MR) 技术栈正在收缩。另外,普遍的观点和实践经验证明,除了大数据相关的工作负载,Hadoop (YARN) 不具备相应的灵活性去跟更广泛的企业技术栈融合与集成。比如去承载一些在线业务,而这正是 Kubernetes(K8s) 所擅长的领域。事实上,Kubernetes 的出现为原创 2022-03-01 12:14:53 · 2672 阅读 · 0 评论 -
Apache Kyuubi:灵活运用引擎隔离共享,加速即席查询,支持大规模 ETL
为了能让 Kyuubi可以更好的满足诸如 ETL、BI 报表等多种大数据场景的应用,从 Kyuubi v1.0.0 版本开始,我们引入了 Kyuubi 引擎共享级别这个概念,来对执行侧进行不同粒度的隔离和共享,这个功能在多次版本的迭代过程中不断被优化和完善。原创 2021-11-25 09:45:53 · 4513 阅读 · 0 评论 -
Hadoop Meetup 2021 回顾 - Apache Kyuubi 助力 CDH 解锁 Spark SQL
Apache Kyuubi(Incubating)(下文简称Kyuubi)是⼀个构建在Spark SQL之上的企业级JDBC网关,兼容HiveServer2通信协议,提供高可用、多租户能力。Kyuubi 具有可扩展的架构设计,社区正在努力使其能够支持更多通信协议(如 RESTful、 MySQL)和计算引擎(如Flink)。Kyuubi的愿景是让大数据平民化。一个的典型使用场景是替换HiveServer2,帮助企业把HiveQL迁移到Spark SQL,轻松获得10~100倍性能提升(具体提升幅度与SQ原创 2021-11-17 11:27:48 · 1871 阅读 · 0 评论 -
2021网易可视化大赛冠军作品创意分享
编者按:一年一度的网易可视化大赛落下帷幕,参赛选手们凭借出彩的可视化作品,呈现了一个个精彩的数据故事。我们有幸邀请到本次大赛一等奖获得者——徐新宇同学,为大家现身讲述作品背后的创作思路与心得收获。大家好,我叫徐新宇,是一名科技公司的前端技术主管。很高兴有机会参与本届网易可视化大赛,并获得名次。我提交的作品是《浙江省高速数智报告》,当初拿到组委会提供的行业模板数据时,我就特意选择了交通行业数据,是因为和本职工作有些关联,在数据理解上会容易一些。我提交的作品是《浙江省高速数智报告》,当初拿到.原创 2021-11-12 11:53:26 · 1571 阅读 · 0 评论 -
COSCon‘21 精彩回顾 | Apache Kyuubi 在 T3 出行的深度实践
支撑了80%的离线作业,日作业量在1W+ 大多数场景比 Hive 性能提升了3-6倍 多租户、并发的场景更加高效稳定 T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。因为车联网数据的多样性,T3出行构建了以 Apache Hudi 为基础的企业级数据湖,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技术门槛是另一种挑战。如果能将平台的能力统合,并不断地优化和迭代,让用户能够通过 JDBC 和 SQL 这种最普遍最通用的技术来使用,数据生产力..原创 2021-11-12 09:57:33 · 2142 阅读 · 0 评论 -
网易严选 x 网易有数:数据产品+数据中台双引擎模式实践
作为一个“平台+品牌”双模式并存的电商品牌,网易严选(下文简称严选)的数据数据链路天然很长,这给数据化决策和数据化运营带来了不一样的挑战,严选如何打造数据支撑体系支撑业务发展?在6月19日的“网易数帆技术沙龙”上,网易数帆大数据产品专家顾平分享了网易严选数据产品建设实践心得,以及支撑数据产品建设的一些难点难题的解决策略。自2017年开始,顾平作为数据产品负责人参与了从0到1建设整个严选据产品体系和数据中台,历经3年时间打磨,严选数据产品和数据中台已经非常成熟。严选的模式,从供应端商品的设计、研发、生产一直原创 2021-07-01 10:05:52 · 667 阅读 · 0 评论 -
全票通过!网易数帆开源项目Kyuubi进入Apache孵化器
北京时间2021年6月21日,全球顶级开源组织Apache基金会宣布,网易数帆开源的大数据项目Kyuubi以全票通过的表现,正式进入Apache基金会孵化器。 根据投票结果,Kyuubi获得了13个约束性投票(binding votes)和8个无约束性投票(non-binding votes),投票全部持赞同意见,无弃权票和反对票。Kyuubi 是网易第一款贡献给 Apache 基金会进入孵化器的开源项目。开源至今,Kyuubi 已累积接受了 29 位国内外开发者超过 200 个以上的提交。当然,进入A原创 2021-06-25 19:31:23 · 436 阅读 · 0 评论 -
网易数帆、云音乐、Intel、有赞最新大数据实践(PPT下载+视频回放)
在近日由网易数帆、Intel联合举办的网易数帆技术沙龙大数据专场上,网易数帆大数据专家、Apache Spark Committer姚琴,有赞基础架构组OLAP负责人陈琦,Intel资深软件开发工程经理、Apache Hive Committer徐铖,网易云音乐数据专家雷剑波,以及网易数帆大数据产品专家顾平等五位专家,分别就Serverless Spark、ClickHouse、Spark/Flink加速、数据仓库和数据产品等话题分享了各自团队的最新实践。Kyuubi:开源企业级Serverless S原创 2021-06-24 13:54:45 · 379 阅读 · 0 评论 -
网易余利华:大数据技术升级脉络及认知陷阱
多年来,大数据技术经历了几轮更迭,在计算、存储、大规模落地等层面均取得了不错的进展,并在不断的成长和成熟,整个生态领域也得到了快速发展。目前,基于分析的大数据计算平台在各大公司发挥着非常重要的基础设施的作用。本期大咖说直播,InfoQ 邀请到了网易数据科学中心总监、网易有数总经理余利华结合他在大数据领域的从业经验,与大家分享大数据技术应用逐步升级的脉络,解读背后的业务需求以及认知陷阱。关注的大数据技术:流批一体与 AI 应用InfoQ:您方便简单介绍一下目前在网易负责的主要工作吗?余利华: 我目前负责原创 2021-06-11 19:22:44 · 585 阅读 · 2 评论 -
顶级项目Committer、Contributor齐聚,数帆xIntel大数据技术沙龙等你来
数字化、智能化转型的背景下,数据作为企业核心生产资料,被寄望发挥更大的价值。从Hadoop、Spark到Flink,从Iceberg、ClickHouse到Kubeflow,与“4V”对抗的大数据技术不断更新,而受其推动的行业进步又带来了新的挑战。如何打造适应未来业务发展的技术体系,成为各大数据团队都在探索的课题。6月19日,网易数帆、Intel联合举办的“升级!智能时代的大数据基石”数字+技术沙龙将于杭州网易园区拉开帷幕,汇聚大数据技术专家及从业者,旨在分享和探索大数据前沿技术、热门开源项目的实践心得与原创 2021-06-10 17:46:51 · 491 阅读 · 0 评论 -
网易云音乐数据服务之路
数据服务作为统一数据中台建设的最上层,能够将数据仓库数据以服务化、接口化的方式提供给数据使用方,屏蔽底层数据存储、计算的诸多细节,简化和加强数据的使用;同时避免烟囱式建设、加强数据API的开发和交付效率,提升数据利用率。网易云音乐数据团队与网易有数进行了数据服务平台共建,并基于实际场景从无到有落地了数据服务在云音乐的使用,本文主要对共建进程及数据服务使用情况进行介绍。原创 2021-05-24 16:51:04 · 2008 阅读 · 0 评论 -
提效 7 倍,Apache Spark 自适应查询优化在网易的深度实践及改进
本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易数帆在 AQE 实践中遇到的痛点和做出的思考。原创 2021-05-21 18:12:30 · 1314 阅读 · 0 评论 -
数据湖 Iceberg 在网易云音乐的实践
Iceberg 详细设计Apache Iceberg 是Netflix开源的全新的存储格式,我们已经有了Parquet、ORC、Arvo等非常优秀的存储格式以后,Netfix为什么还要设计出Iceberg 呢?和Parquet、ORC等文件格式不同, Iceberg 在业界被称之为Table Foramt,Parquet、ORC、Avro等文件等格式帮助我们高效地修改、读取单个文件;同样Table Foramt帮助我们高效的修改和读取一类文件集合,大家可以类比的Hive的元数据系统, Hive的Sche原创 2021-04-30 15:17:29 · 881 阅读 · 0 评论 -
15份PPT,透视网易云音乐/严选/新闻/游戏背后的AI实践(合集下载)
在最近一次【网易TALK-网易AI大会】内部技术分享会上,网易数帆、云音乐、严选、传媒、有道、Lofter、智企、伏羲等多个业务的人工智能大咖,共同分享AI算法和系统在网易各个业务领域的落地实践和思考。分享内容覆盖电商流量营销、数字化供应链、数字化风控、游戏AI、数字教育、音乐分发、搜索、智能客服、新闻分发、流量变现等多个领域场景,以及数字化AI平台技术的创新。小编整理了本次分享会的PPT合集,与大家交流学习。系统平台走向智能化算法、数据和算力是AI应用的三大核心要素,好的算法、好的应用还需要好的A原创 2021-04-08 19:36:15 · 4373 阅读 · 0 评论 -
实时数据仓库的发展、架构和趋势
当前基于 Hive 的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。实时数仓建设:实时数仓 1.0传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。对于实时处理场景,我们一般又可以分为两类,一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级;另一类诸如大部分实时报表的需求通常没有非常高的时效性要求,一般.原创 2021-04-02 09:34:25 · 5545 阅读 · 1 评论 -
数据基础设施创新如火如荼,主要方向有哪些(下)
上篇《数据基础设施创新如火如荼,主要方向有哪些(上)》介绍了数据基础设施领域近期创新的总体情况及前三个典型创新领域,这是下篇,继续介绍后两个创新领域及创新背后的技术和需求驱动因素。原创 2021-03-29 11:59:31 · 5110 阅读 · 0 评论 -
数据基础设施创新如火如荼,主要方向有哪些(上)
这两年这个领域的创新创业有特别如火如荼的感觉,聚焦数据基础设施细分领域的创业项目扎堆出现,新概念新名词乱花迷眼,之前不温不火的项目转换门面大把融资。本文试图最近期的领域进展做一次梳理总结,分上下两篇,这是上篇。原创 2021-03-24 17:36:58 · 5852 阅读 · 0 评论 -
企业大数据实战:Kyuubi 与 Spark ThriftServer 的全面对比分析
网易数帆旗下易数大数据团队开源的 Kyuubi,和 Spark 社区的Spark Thrift Server,都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项目。本文从企业大数据应用场景关注的问题出发,对比了 Kyuubi 与 Spark Thrift Server 的差异与优劣,并引入HiveServer2 进行全面的分析。原创 2021-03-19 19:17:01 · 7217 阅读 · 1 评论 -
Kyuubi: 网易数帆开源的企业级数据湖管理平台(架构篇)
Kyuubi是网易数帆旗下易数大数据团队开源的一个企业级数据湖管理平台,建立在Apache Spark之上。Kyuubi提供一个高性能的通用JDBC和SQL执行引擎,通过它,用户能够像处理普通数据一样处理大数据。本文将详细解读Kyuubi的架构设计。原创 2021-03-04 20:09:43 · 11367 阅读 · 2 评论 -
基于Impala的网易有数BI查询优化总结
本文总结了Impala在网易有数BI应用场景下的最新查询优化经验,并探讨后续进一步优化的思路。文章首先简述有数BI + Impala在网易云音乐等业务使用时遇到的挑战,再介绍进行有数查询优化的重要工具——网易Impala管理服务器,最后结合实际业务问题讨论具体优化方法及下一步计划。原创 2021-02-22 17:25:56 · 9928 阅读 · 1 评论 -
效能提升30%、埋点线下bug率下降50%,网易云音乐数仓建设之路
数据仓库是当前数据中台体系的核心组件之一,也是网易云音乐数据化运营的发动机,本文总结了 2020 年网易云音乐数据仓库团队的一些核心工作、取得的进展以及相关实践经验,希望对读者有所启发。2020 年已结束,网易云音乐(以下简称云音乐)数据仓库团队取得了较为满意的成绩,也获得不小的成长。回顾团队过去一整年的工作,我们主要聚焦于两件事: 数据交付提效 数据质量提升 交付提效我于 2019 年加入云音乐,当时数仓团队给我的第一印象是忙碌、年轻,这群基本都是 90 后的年轻人每天都会加班原创 2021-02-20 10:45:59 · 9394 阅读 · 1 评论 -
数据沙箱在大数据生产、测试物理集群隔离场景中最佳实践
网易有数大数据平台,引入了一种“数据沙箱”的机制,将代码与代码运行所需要的数据、环境变量解耦,根据代码的运行环境,自动关联所需要的数据和环境变量。一套代码,可以在不同的环境之间,无缝切换。下面,我们重点介绍一下,数据沙箱在生产、测试物理集群隔离场景下的应用。原创 2021-02-08 18:01:09 · 16411 阅读 · 0 评论 -
海量数据时代,谁能终结污染数据爆发式的扩散?
2020年初新冠疫情爆发,然后迅速在全球范围内扩散,其蔓延速度之快、后果之严重令人生畏。在大数据领域,也存在着类似的扩散问题(异常数据流向下游),其带来的危害有时也是灾难性的。面对这样的问题,我们又该如何解决?本文就对该问题,说明网易有数大数据平台是如何解决离线开发中的快速阻断和高效恢复。原创 2021-02-07 18:06:20 · 10256 阅读 · 0 评论 -
拥抱开源,我们是认真的-网易易数2020年Apache Spark贡献总结
开源软件正在吞噬世界,在未来,没有一家企业能够脱离它们,也不可能存在一家企业能够脱离开源的开发协作方式,也没有一家企业会拒绝这种本质上是双赢的局面。本文来自网易数帆旗下网易易数研发团队,记录其2020年在Apache Spark上的点滴贡献。前言“自研不等于自主可控, 开放才是未来。”来自网易副总裁汪源的一席话,体现了拥抱开源和构建开源生态方面,网易人的决心和一贯坚持。我们为什么要拥抱开源对企业而言,四字真言,有利可图。这是摆在我们面前现实且需要正视的目的。对于企业来讲,“使用”开源可以.原创 2020-12-25 09:59:59 · 16882 阅读 · 1 评论 -
数仓维度建模系列-数仓规范篇
本系列将持续更新数仓建模相关知识,将学习到的理论知识和工作实践结合起来,总结沉淀下来,积跬步成千里。上一篇介绍了维度建模体系的搭建,这次来分享下搭建数据仓库涉及的各种规范。分享我工作中遇到的一个小案例:小A:我发现XXX这个历史累计指标既可以从服务端出,又可以从日志出,这2份数据源貌似有差异小B:是的,服务端记录的是当前还存在的,日志会把删除的也记下来小A:嗯,2份数据源会导致数据不一致的情况,我觉得我们应该从指标命名上区分开来小B:嗯,我这边是这么记得:服务端的直接从后端表获取.原创 2020-11-26 10:14:23 · 14300 阅读 · 0 评论 -
从数据中台到全链路数据生产力
作者:汪源,网易副总裁,网易杭州研究院执行院长,网易数帆总经理首发:冷技术热思考近两个月前的数字+大会上,我们向业界发布网易易数全链路数据生产力平台。有必要再阐释一下什么叫全链路数据生产力平台,它跟其他的很多数据领域的技术如数据中台、BI等是什么关系。一、全链路数据生产力1979年,老邓画了一个圈,造就的一个信奉生产力的时代。虽然不排除某些企业逼格高,无视生产力,绝大部分企业都是想要生产力的。企业的生产力,有一部分来自于数据生产力;数字时代企业的生产力,大部分来自于数据生产力。数据生原创 2020-11-12 18:15:35 · 21464 阅读 · 1 评论 -
【讲稿】Impala在网易大数据中使用和优化实践-P2
本文是在2020 DataFunCon上所做分享的讲稿,感谢DataFun团队整理。由于篇幅较长,分为2篇来记录,这是第二篇。上文:【讲稿】Impala在网易大数据中使用和优化实践-P13.基于ZK的服务高可用虽然每一个Impalad都可以作为Coordinator,对外提供访问服务,接受客户端请求,但是缺乏一个路由机制。当一个client连接的特定coordinator失效之后,就无法在进行查询了。网易大数据团队参考Hive的实现,引入zookeeper作为访问代理,客户端首先通过zo转载 2020-11-12 12:24:40 · 1369 阅读 · 0 评论 -
【讲稿】Impala在网易大数据中使用和优化实践-P1
网易大数据平台的底层数据查询引擎,选用了Impala作为OLAP查询引擎,不但支撑了网易大数据的交互式查询与自助分析,还为外部客户提供了商业化的产品与服务。今天分享的Impala在网易大数据中的的优化和实践,主要分为三个部分:Impala的定位及其优势对Impala的一些增强和优化Impala在网易的使用案例分析转载 2020-11-03 17:33:56 · 1496 阅读 · 0 评论 -
网易严选数据产品实践
数据产品是个新兴的产品分类,每个人眼里都有一个自己的数据产品,尽管在绝大部分人的概念中都是一堆报表。在过去的3年里,网易严选技术团队在用户需求的推动下,也借助了网易易数的产品,一步步构建了网易严选数据产品体系,下文分享在构建过程中自己的一些思考和总结。背景本文内容来自我在2020产品经理大会上《网易严选数据产品实践与方法论》分享的文字总结,由于篇幅原因,只包含了实践部分。数据产品是个新兴的产品分类,每个人眼里都有一个自己的数据产品,尽管在绝大部分人的概念中都是一堆报表。在过去的3...转载 2020-10-30 10:40:25 · 2194 阅读 · 2 评论 -
网易数据库运维平台化之路--管理精细化
网易DBA团队同时运维众多不同类型的数据库环境,面临的问题是既要保障数据库运维的高效可靠一致,又要针对每一种数据库进行定制的精细化管理。针对这个问题我们给出的解决之道就是构建一个开放式的数据库运维平台OWL:一方面将通用的操作流程标准化、自动化;另一方面将个性化的配置与流程做成模版与插件脚本。根据这一基本指导思想,可以逐步在数据库管理上既实现了高效自动化的基础需求,又保障了灵活性个性化,最终达到精细化管理的目标。原创 2020-09-25 18:23:56 · 5929 阅读 · 0 评论 -
网易严选打造数仓规范和评价体系实践
本次邀请了有多年数据领域工作经验,专注数据架构、模型设计和规范执行落地的专家,从概念-平台-规范的链路来介绍:借助网易数帆旗下的全链路数据生产力平台——网易易数,严选是如何建立数据仓库和评价体系的。转载 2020-09-25 11:33:59 · 1801 阅读 · 0 评论 -
网易实时数仓实践与展望
本文主要介绍网易的实时计算平台的建设实践以及网易对于实时数仓方面的一些规划及展望,希望能够起到抛砖引玉的作用。转载 2020-09-04 18:50:46 · 1217 阅读 · 0 评论 -
数仓建模系列-数据体系搭建篇
本系列将持续更新数仓建模相关知识,将学习到的理论知识和工作实践结合起来,总结沉淀下来,积跬步成千里。作者:吴珍基本概念数据仓库概念由世界公认的数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)中提出:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of dat.原创 2020-08-28 14:52:29 · 2533 阅读 · 1 评论 -
【大数据实践】网易杭研HBase集群G1GC节点FGC调优
网易杭研大数据技术团队为某业务解决HBase集群FGC的实践经验。原创 2020-05-29 17:45:54 · 5218 阅读 · 0 评论