• 博客(347)
  • 收藏
  • 关注

原创 低延时直播系统在欧洲杯的实践

欧洲杯作为全球关注的足球赛事之一,实时、清晰的观赛体验对球迷至关重要,当画质清晰度接近的情况下延时的权重就会被放大。随着新技术如5G、云计算等的发展,低延时直播技术得到提升,也引发了市场竞争。然而,其高昂的带宽成本成为大规模使用的主要阻碍,尤其是在全球性赛事如欧洲杯中,观众众多,对带宽需求大,从而进一步提高了成本。因此,在确保低延时直播质量的前提下,寻找经济高效的解决方案成为必要。 ...

2024-08-23 12:03:01 822

原创 爱奇艺广告特征评估流程优化实践

01背景在搜广推系统中,特征质量是决定模型能力的关键因素。爱奇艺广告场景下,特征评估面临以下挑战:人力资源瓶颈:整个流程基本需要算法工程师完成,评估门槛高,效率低且评估标准不统一。流程复杂性:广告算法场景增多,每个场景下的特征评估流程有明显差别,流程变得越来越复杂。为了更高效地构建并筛选出优质特征,爱奇艺广告算法团队与大数据团队合作,基于 Opal 机器学习平台对广告特征评估流程进行改进,并借...

2024-07-26 12:01:18 438

原创 新一代风控特征平台 RiskFactor :让黑产对抗进入复兴号时代

01背景互联网风控是一个高对抗的领域,黑产为了攫取高额利益会持续不断尝试突破风控体系,而风控体系中,特征数据是核心要素。特征生产的速度,直接决定了黑产对抗的效果。风控特征通常是基于风险刻画沉淀的介质数据 (list) 或基于用户行为的累计数据 (velocity) 。举个例子,虚拟手机号名单,就是有「虚拟手机号」风险的手机号列表,而某个设备 ID 一小时内登录次数,就是基于用户登录行为的累计数据...

2024-07-05 12:00:39 671

原创 爱奇艺 Opal 机器学习平台:特征中心建设实践

01综述Opal 是爱奇艺大数据团队研发的一站式机器学习平台,旨在提升特征迭代、模型训练效率,帮助业务提高收益。整个平台覆盖了机器学习生命周期中特征生产、样本构建、模型探索、模型训练、模型部署等在内的多个关键环节。其中特征作为模型训练的基石,其重要性不言而喻,如何让用户借助平台的能力,提升其业务侧特征迭代效率,从而达到预期的目标,是作为平台方需要思考的关键问题之一。在 Opal 中,特征生产、...

2024-06-28 12:00:45 1091

原创 春晚直播稳定性保障实践

每年的央视春晚直播,是对爱奇艺直播链路上所有技术团队的一次大考。央视春晚除了会引起服务接口QPS的暴涨,也会对CDN带宽和核心机房带宽带来瞬间的压力。此外,直播对线上故障处理时间的要求特别高,因此直播链路上的各个环节都要做好充分的高可用性保障。整个直播链路,大致可以分为信号编码与切片处理、CDN分发与回源、节目播放请求处理、视频切片下载与播放四个环节。本文分别介绍这四个环节在2024央视春晚中的稳...

2024-06-14 12:00:56 617

转载 爱奇艺公有云对账标准化实践

01背景云成本系统化管理公有云作为基础架构部核心资源之一,其成本占比逐年上升,企业对于公有云成本实施精细化管理的需求越来越高。相较于私有化部署主要关注服务器、网设、带宽等资源的成本管理方式,使用公有云服务面临多厂家、多产品、多折扣、多套餐、多优惠方案、多账单格式等多个维度的问题,从部门、业务、项目、资源类别等不同维度实现成本可视化的难度指数级增大。简单列举当前阶段多云成本管理存在的问题:管理和...

2024-06-07 12:01:19 109

转载 Opal 机器学习平台:爱奇艺数智一体化实践

01综述Opal 是爱奇艺大数据团队研发的机器学习平台,包含特征生产、样本构建、模型训练、模型部署在内的多环节 Bigdata + AI 开发服务,内置多种训练镜像、特征算子、效率工具,为用户提供低门槛、高性能的数智应用开发工程化能力,覆盖了推荐、广告、风控等多个业务场景,帮助业务提升特征迭代、模型训练效率,进而提升业务效果。背景近年来,机器学习、深度学习算法在推荐、广告、搜索、风控等业务场景...

2024-05-31 12:00:27 78

原创 构建强韧:爱奇艺VRS系统可用性建设实践

导语:爱奇艺作为网络视频播放平台,其核心服务是播放用户选择的视频内容。VRS(Video Relay Service)是公司所有平台播放功能的入口服务,它的主要功能包括播放策略控制(播控)、码流选择和下发视频文件地址等。VRS 系统的正常运行直接关系到爱奇艺的正常使用,因此对故障发生和故障时长的容忍度极低。在业务迭代过程中,保障并不断提高VRS系统的高可用、容灾和故障恢复能力一直是VRS团队最重要...

2024-05-24 12:01:16 458

转载 播放全链路压测实践之路

01背 景播放链路是爱奇艺最重要的业务,链路稳定性极其重要,随着爱奇艺用户的不断增长和热播剧集的推广,播放链路往往面临着难以预估的用户流量的突增,考验着链路中各个服务系统的稳定性和性能,这也直接影响着大量用户的观影体验,实施全链路压测已经成为重要且必要的课题。为什么要进行链路级的压测,单机、单系统压测为何不可达成目标?线上容量 ≠ 单机容量 * 数量:线上运行环境是复杂多变的,即使配置相同的机器...

2024-05-10 12:02:40 59

转载 爱奇艺数据湖实战 - 实时湖仓一体化

01 概述数据是洞察用户、市场、运营决策的基础资料,在爱奇艺被广泛应用在推荐、广告、用户增长、营销等场景中。爱奇艺大数据业务之前采用 Lambda 架构,满足海量数据处理、时效性等方面需求,但开发维护及资源成本高,同时还存在数据孤岛问题。最近几年兴起的以 Iceberg、Hudi、Delta Lake 为代表的数据湖技术为构建统一的数据架构提供了基础。爱奇艺大数据团队在 2020 年引入 Ic...

2024-04-26 12:01:08 114

原创 一次Redis访问超时的“捉虫”之旅

01引言作为后端开发人员,对Redis肯定不陌生,它是一款基于内存的数据库,读写速度非常快。在爱奇艺海外后端的项目中,我们也广泛使用Redis,主要用于缓存、消息队列和分布式锁等场景。最近在对一个老项目使用的docker镜像版本升级过程中碰到一个奇怪的问题,发现项目升级到高版本镜像后,访问Redis会出现很多超时错误,而降回之前的镜像版本后问题也随之消失。经过排查,最终定位问题元凶是一个涉及...

2024-04-19 12:03:00 992

原创 爱奇艺APP Android低端机性能优化

01背景介绍在智能手机市场上,高端机型经常备受瞩目,但低端机型亦占据了不可忽视的份额。众多厂商为满足低端市场的需求,不断推出低配系列手机。另外过去几年的中高端机型,随着系统硬件的快速迭代,现已经被归类为低端机型。爱奇艺APP拥有庞大的用户基群,其中低端机型用户也占据了相当一部分。低端机优化能给这部分用户带来稳定、流畅、高效的使用体验。下面将从冷启动、流畅性、加载速度三个维度介绍爱奇艺APP对...

2024-04-12 12:02:11 994

原创 爱奇艺 CTR 场景下的 GPU 推理性能优化

01背景介绍GPU 目前大量应用在了爱奇艺深度学习平台上。GPU 拥有成百上千个处理核心,能够并行的执行大量指令,非常适合用来做深度学习相关的计算。在 CV(计算机视觉),NLP(自然语言处理)的模型上,已经广泛的使用了 GPU,相比 CPU 通常能够更快、更经济的完成模型的训练和推理。CTR (Click Trough Rate) 模型广泛使用在推荐、广告、搜索等场景中,用来估算用户点击某...

2024-03-15 12:00:26 1152

转载 爱奇艺数据湖实战 - Hive数仓平滑入湖

爱奇艺基于 Hive 构建了传统的离线数据仓库,支持了公司运营决策、用户增长、视频推荐、会员、广告等业务需求。近几年,随着业务对数据实时性的更高要求。我们引入了基于 Iceberg 的数据湖技术,大幅提升数据查询性能及整体流通效率。从性能和成本角度考虑,将现有的Hive表迁移到数据湖是必要的。然而多年来,大数据平台上已经积累了数百 PB 的 Hive 数据,如何将 Hive 迁移到数据湖,成为我们...

2024-03-08 12:00:47 224

原创 稀疏大模型在爱奇艺广告排序场景中的实践

01背景与现状1、广告领域数据特点广告领域数据可以分成:连续值特征和离散值特征。不同于 AI 图像、视频、语音等领域,广告领域内的原始数据大多以 ID 形式呈现,比如用户 ID、广告 ID、与用户交互的广告 ID 序列等,而且 ID 规模较大,形成了广告领域数据高维稀疏的鲜明特点。连续值特征既有静态的(比如用户的年龄),也有基于用户行为的动态特征(比如用户点击某行业广告的次数)。优点是具备良...

2024-03-01 12:01:38 941

原创 爱奇艺图片格式演进

01 背景图片是爱奇艺APP页面的主要视觉元素,对整体用户体验有着至关重要的影响。同时,由大量启动带来的图片CDN峰值带宽成本也有待降低。因此,在努力提升用户体验的同时,优化图片CDN峰值带宽成本已成为一项关键任务。而决定图片显示质量和文件体积的编解码格式,就是优化的关键所在。1、图片格式简介爱奇艺APP中使用了各种各样的图片格式,具体对比如下:格式是否支持透明是否支持动图爱奇艺APP使用场景...

2024-02-08 12:00:49 1008

原创 奇异果投屏的进化之路

笔者按:奇异果投屏伴随奇异果TV一路发展至2022年,日活用户已达300多万,用户和我们都对投屏的功能和性能提出了更多的诉求和更高要求,因此2022开始系统地对投屏功能和性能做了扩展和优化。本文立足于TV端,为大家介绍爱奇艺站内投屏优化过程中面临的困难和解决方案,虚心以待您的指正和建议。01 优化历程回顾自2022年初接手投屏功能,先后开展了功能扩展、报障处理提效等工作,至2022年底仍深感投...

2024-02-07 14:18:27 913

转载 工信部发布2023移动互联网应用服务能力优秀案例 爱奇艺两项目入选

2024年1月,工业和信息化部通信管理局公布2023年移动互联网应用服务能力提升优秀案例名单。“爱奇艺主动式合规风险处置平台——覆盖APP全业务流程的风险监测与处置”“爱奇艺全生命周期隐私保护方案”,分别入选“完善制度规程,加强全流程合规管理”和“研发部署技术手段,增强风险防范能力”领域优秀案例。同期获选优秀案例的公司包括华为、中国移动等。据悉,工信部本次评选旨在推荐企业先进经验和做法,推动提升移...

2024-02-02 17:05:06 93

原创 微服务不死 — 共享变量在策略引擎项目的落地详解

01 背景1、共享变量的提出前段时间,来自亚马逊 Prime Video 团队的一个案例研究在开发者社区中掀起了轩然大波。大体是这样一件事,作为一个流媒体平台,Prime Video每天都会向客户提供成千上万的直播流。为了确保客户无缝接收内容,Prime Video需要构建一个监控工具来识别客户所查看的每个流中的质量问题,这提出了极高的可扩展性要求。对此,Prime Video团队优先考虑了微...

2024-01-19 12:00:41 1138

原创 TV端Web页面性能优化实践

01 背景随着互联网技术的持续创新和电视行业的高速发展,通过电视观看在线视频已经逐渐成为大众的重要娱乐方式。奇异果App作为在TV设备上用户活跃度最高的应用之一,为广大用户提供了丰富的内容播放服务,除此之外,同样有会员运营、专题活动等上线效率要求极高的服务提供给用户。为满足后者的诉求,我们调研了目前主流的动态化和跨端技术:H5、Flutter 和 React Native,最终从开发效率、人力...

2023-12-29 12:01:26 1287

原创 爱奇艺H5专题页打造原生体验优化实践

01 项目背景H5专题及活动页面一直是公司大剧热综宣传、App拉新促活的重要承载方式,其在各个业务领域中扮演着至关重要的角色。与此同时,也存在着一些弊端而广受诟病。比如页面打开速度慢,白屏现象、端内H5顶部标题栏与页面内容割裂等。我们针对这些问题与webview团队深入合作,沟通尝试各种解决方案,着重优化用户体验和页面性能,目前已经取得一定进展,现将一些实践经验分享给大家,以供参考。02 ...

2023-11-24 12:02:00 1073

原创 爱奇艺大数据离在线混部

混部作为一种提高资源利用率、降低成本的的方案,被业界普遍认可。爱奇艺在云原生化与降本增效的过程中,成功将大数据离线计算、音视频内容处理等工作负载与在线业务进行了混部,并且取得了阶段性收益。本文重点以大数据为例,介绍从 0 到 1 落地混部体系的实践过程。01 背景爱奇艺大数据支持了公司内运营决策、用户增长、广告分发、视频推荐、搜索、会员等重要场景,为业务提供数据驱动引擎。随着业务需求的增长,计...

2023-11-17 12:00:49 379

转载 桃厂Hack Day,开启未来娱乐世界!

2023-10-24 18:37:02 133

原创 爱奇艺效果广告双出价优化历程

01 项目背景效果广告的投放是一个博弈的场景:媒体平台希望流量卖出最高的价格,客户希望广告的投放成本和后端效果达标。随着效果广告行业的发展,客户不再满足于仅考核唤醒、激活等浅层转化的效果,越来越多的广告主向媒体平台表达优化后端效果的诉求。后端效果包括次留率、付费率、首日付费ROI等多种深层转化类型。这篇文章,我们将回顾讲述,效果广告在出价模式上的优化历程。广告媒体平台一般采用双出价模式来同时保...

2023-10-20 12:00:58 369

原创 数据湖在爱奇艺数据中台的应用

01 我们眼中的数据湖作为爱奇艺的数据中台团队,我们的核心任务是管理和服务公司内的大量数据资产。在实施数据治理的过程中,我们不断吸收新的理念,引入尖端的工具,以精细化我们的数据体系管理。“数据湖”作为近年来数据领域广泛热议的概念,其技术层面也受到了业界的广泛关注。我们的团队对相关数据湖的理论和实践进行了深入研究,我们认为,数据湖不仅是一种治理数据的全新视角,更是一种集成和处理数据的极具前景的技...

2023-09-22 12:03:48 281

原创 Apache Spark 在爱奇艺的应用实践

01 Apache Spark 在爱奇艺的现状Apache Spark 是爱奇艺大数据平台主要使用的离线计算框架,并支持部分流计算任务,用于数据处理、数据同步、数据查询分析等场景:数据处理:在数据开发平台中支持开发者提交 Spark Jar 包任务或Spark SQL 任务对数据进行ETL处理。数据同步:爱奇艺自研的BabelX数据同步工具基于Spark 计算框架开发,支持 Hive、MySQ...

2023-09-15 12:00:19 666

原创 爱奇艺数据湖实战 - 基于数据湖的日志平台架构演进

01 背景为了满足公司内日志实时查询分析的需求,爱奇艺大数据团队自研了Venus日志服务平台,负责爱奇艺各服务日志的采集、存储、处理、分析等场景。早期采用基于ElasticSearch的存储分析架构,随着数据规模的不断扩大,出现了成本高、管理困难、稳定性差等问题。数据湖技术近几年快速发展,其采用了统一大数据存储底座和存算分离的架构,提供了一种适合于日志这种大量写入、少量查询场景的解决方案。因此...

2023-08-25 12:01:07 453

原创 揭秘内存暴涨:解决大模型分布式训练OOM纪实

在现代深度学习开发中,我们通常依赖其他模块,像搭积木一样构建复杂的软件系统,这个过程往往快速且有效。然而,如何在遇到问题时迅速定位和解决问题,由于系统的复杂性和耦合性,一直困扰着深度学习系统设计和维护者。作为爱奇艺后端技术团队的一员,我们详细记录了一次解决深度学习训练内存相关问题的过程,希望为正努力解决棘手问题的同行提供一些启示。01 背景过去的一个季度中,我们一直在A100集群观察到随机的c...

2023-08-11 12:02:56 435

原创 分布式系统日志打印优化方案的探索与实践

01 背景爱奇艺海外后端研发组支撑了爱奇艺海外PHONE/PCW/TV三端后端的相关业务。除了负责三端的后端服务外,还包含了海外积分业务,弹窗,各类节目的预约系统等。除此以外,还有落地了一些列基础设施,比如快速支持产品的各类运营配置和实验诉求的IQ后台;助力产品运营实现精细化运营的策略引擎;实现流量回放和压测的质量保障平台等。繁多业务的稳定运行依赖完善的日志体系,因此业务代码常常会打印许多日志...

2023-07-28 12:01:13 252

原创 爱奇艺客户端开播体验优化实践

01 项目背景爱奇艺移动端绝大部分用户的消费时长在观看视频,海量用户每天数亿次播放。开播速度和体验对用户消费时长和留存尤为重要。随着音画品质的提升,视频开始播放所需要的资源也逐渐增加,对开播体验也提出了新的要求。然而整体播放链路十分复杂,主要包括网络环境、CDN、P2P、终端设备性能、内容清晰度等;如何优化降低开播链路各个环节耗时,克服设备性能参差不齐、网络波动、系统版本差异带来了新的挑战,也...

2023-07-21 12:02:16 305

原创 Spring Cloud Gateway下的GC停顿排查之旅

01 背景在微服务架构体系流行的当下,Spring Cloud全家桶已经是大多数团队的首选,我们也不例外,并且选择了Spring Cloud Gateway作为了业务网关,进行了一些通用能力的开发,如鉴权、路由等等。作为一个成熟的框架,我们已经使用了很长时间都没有出现问题,表现十分稳定。然而最近突然出现短时间内的5xx告警,起先没引起注意,认为是网络的问题,但是后来发现每隔一段时间(一两个星期...

2023-07-14 12:03:30 1035

原创 爱奇艺数据湖实战-广告数据湖应用

01 背景广告数据主要包括效果、品牌和ADX等广告形式的请求和投放链路中产出的一系列日志,经过处理后,用于算法模型训练、广告运营分析、广告投放决策等场景。广告业务对数据的时效性、准确性以及查询性能要求较高。目前,广告数据链路整体采用Lambda架构,存在离线、实时两条链路,带来较高的使用成本和数据不一致性风险。为了解决这些问题,广告数据团队与爱奇艺大数据团队一起积极调研大数据前沿技术,很早就关...

2023-06-30 17:04:20 405

原创 爱奇艺大数据加速:从Hive到Spark SQL

01 导语爱奇艺自2012年开展大数据业务以来,基于大数据开源生态服务建设了一系列平台,涵盖了数据采集、数据处理、数据分析、数据应用等整个大数据流程,为公司的运营决策和各种数据智能业务提供了强有力的支持。随着数据规模的不断增长和计算复杂度的增加,如何快速挖掘数据的潜在价值,给大数据平台带来了巨大挑战。 针对海量数据的实时分析需求,大数据团队从2020年开始发起大数据加速项目,基于大数据技术加速...

2023-06-09 17:03:17 1594

原创 奇巴布Feed流性能优化

01项目背景“爱奇艺奇巴布”是爱奇艺为0-8岁孩子和家长定制化设计的寓教于乐平台,为儿童量身打造精致的观看体验,精彩内容解锁寓教于乐新方式。为儿童提供优质动画内容的同时,我们更关注APP用户体验。在产品交互设计上我们立足儿童视角,把内容浏览和观影做到做到简约易用。奇巴布APP整体界面简约、导航清晰、播放流畅,以极致的设计理念荣获2018年德国红点传达设计奖。在技术侧我们不断完善技术架构体系,...

2023-05-26 12:03:47 1166

原创 Prometheus监控指标查询性能调优

01 背景在《SRE: Google运维解密》一书中作者指出,监控系统需要能够有效的支持白盒监控和黑盒监控。黑盒监控只在某个问题目前正在发生,并且造成了某个现象时才会发出紧急警报。“白盒监控则大量依赖对系统内部信息的检测,如系统日志、抓取提供指标信息的 HTTP 节点等。白盒监控系统因此可以检测到即将发生的问题及那些重试所掩盖的问题等”。为了完善系统的白盒监控,会员团队基于 Prometheu...

2023-05-12 12:03:18 1212

原创 爱奇艺DRM修炼之路

01 DRM的定义和作用DRM,即数字版权管理(digital rights management),是在数字内容交易过程中,对知识产权进行保护的技术、工具和处理过程。它的目的是防止数字内容被未经授权的用户复制、修改和分发,以保护知识产权所有者的权益。在日常生活中,我们经常与 DRM 技术打交道。比如,电影上映前,我们不能在视频网站上观看电影,只能去电影院。这是内容提供(发行)商对自己的数字内...

2023-04-28 12:00:10 888

原创 组件化设计在会员业务的应用和实践

01 背景在现代商业环境中,为了实现商业目标和利益的最大化,企业之间经常进行各种合作,例如供应链合作、销售渠道合作、技术合作等等。在这种背景下,对外合作成为了会员业务的重要组成部分,随着业务的发展,外部合作的需求越来越多,如何能高效完成与合作方的对接,成为了一个重要的课题。02 合作方式介绍对外合作主要是以接口方式对接,负责企业之间的数据交换和服务共享。合作方式分为以下2种:1、合作方标准...

2023-03-31 12:02:43 257

原创 会员测试环境治理之路

01 背景会员业务是公司的重要业务之一,为广大会员用户承载最基础的服务保障,随着会员数的破亿,业务复杂度也是呈现几何倍的增加,如何高效的支持会员业务的测试,也成为了会员测试团队不得不面对客观挑战,这其中最核心也是最基础的莫过于测试环境的治理,现将测试环境特点总结如下:特点1:基础应用服务数量多达数百个,分布在几十个域名下,维护成本高。特点2:调用关系复杂,应用之间互相调用,并且相互依赖,联调成...

2023-03-03 12:00:32 267

原创 视频生产大镜像优化实践

本文介绍了爱奇艺视频生产技术团队针对大镜像的多种优化方案,充分利用现有的 Docker 镜像分层相关技术,在其基础上进行优化和创新,在开发人员无感知的情况下,优化镜像大小,同时提升了构建速度,减少了分发所需要的带宽。01 背景爱奇艺视频转码服务通过容器技术进行分布式任务的提交与执行,依赖 Docker 镜像进行版本发布以及部署,然而随着版本的迭代,Docker 镜像内容越来越多,体积越来越大,...

2023-02-17 12:00:11 300

原创 爱奇艺数据湖实战

01 什么是数据湖?数据湖概念于2010年[1]首次提出,经过多年的演变,目前演化出两种不同的定义——公有云数据湖、非公有云数据湖。公有云数据湖AWS [2]、Google Cloud [3] 以及国内的阿里云、腾讯云等公有云厂商对数据湖的定义是一个集中的、近乎无限空间的数据存储区,支持结构化、半结构化、非结构化等各种类型数据。在公有云厂商的语境下,数据湖一般就是各家的云存储产品,比如...

2023-02-03 18:31:33 950

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除