华为、字节、Dimforge等顶尖专家齐聚，GOSIM CHINA 2024《下一代媒体与终端》专题论坛等你来

原创已于 2024-10-11 11:44:17 修改

· 1.7w 阅读

35 ·

版权

文章标签：

#媒体

于 2024-10-11 10:31:53 首次发布

GOSIM China 2024 专栏收录该内容

8 篇文章

订阅专栏

10 月 17 - 18日，由 GOSIM 开源创新汇主办、CSDN 承办的 GOSIM CHINA 2024 将在北京盛大启幕。作为 GOSIM 开源年度大会的第三届盛会，本次活动邀请了 60 多位国际开源专家，汇聚了来自全球百余家顶尖科技企业、知名高校及开源社区的技术大咖、项目负责人和生态领袖。预计将有 1000 + 开发者和开源人才齐聚北京，共议全球开源技术的创新与应用新趋势。

GOSIM CHINA 2024 以国际化、社区化、强互动为特色，主题围绕 AI 模型与基础设施、具身智能、下一代互联网、下一代媒体、Rust 编程语言、App 开发等 6 大热点技术，共组织了 2 场 Keynote 、6 大主题论坛、9 场 workshop 、2 场黑客马拉松大赛……聚焦技术发展前沿趋势，探索开源技术的应用与创新。精彩内容不止如此，欢迎您报名参与！更多信息，欢迎访问大会官网！

报名参会：https://china2024.gosim.org/zh/registration

大会官网：https://china2024.gosim.org/zh

《下一代媒体与终端》论坛邀请到华为图形标准高级研究员蔡康颖、Dimforge 创始人 Sébastien Crozet、《编程 Rust》作者 Jim Blandy、Gyges Labs 联合创始人兼首席人工智能科学家綦思源、OYMotion 首席运营官陈瑶、ADAPS 市场副总裁侯昌韬、字节跳动 PICO XR Runtime技术负责人刘志鹏等 13 位嘉宾围绕数字内容的生产与互动展开探讨，描绘出数字化未来的景象与发展基座。点击链接或扫描下方二维码报名，探索数字化未来图景！

《下一代媒体与终端》专场，精彩议题抢先看

每个人都生活在数字化的世界中。人工智能对数字化世界的影响可以说是深刻的，甚至是革命性的。文生文、文生图、文生视频等内容创作方式的变动极大地冲击了已有的知识生产方式和研究路径，重塑了未来图景。本场分论坛将深入探讨改变我们创建数字内容并与之互动的前沿技术。主要议题包括：

WebGPU 标准及其开源实现：探讨 WebGPU 标准的突破性技术，它作为一个统一的计算内核，不仅能够处理图形渲染和物理模拟，还在生成式人工智能应用中展现出巨大的潜力。WebGPU 的开源实现正推动媒体和 AI 融合的全新可能。
开源生成式 AI 模型与工具：介绍最新的开源生成式 AI 模型及工具，展示其如何生成高质量的图像、视频和三维内容。这些创新为艺术创作、设计和内容生成开辟了前所未有的可能性，赋予创作者更高的自由度与效率。
人工智能驱动的生成式媒体应用：深入探讨新兴的生成式媒体应用，了解 AI 如何重塑内容创作流程，尤其是在娱乐、设计和营销等领域，人工智能驱动的生成式技术正引领行业进入一个更具互动性和自动化的新时代。
AI 驱动的 XR 与可穿戴设备：探索下一波人工智能驱动的扩展现实（XR）和可穿戴设备，结合智能技术与沉浸式体验，彻底改变用户与设备的互动方式。这些设备将在消费市场中创造更加身临其境的体验，推动媒体和科技的深度融合。

无论您是媒体创作者、开发者，还是数字内容领域的探索者，本专题将为您提供了解未来媒体创作与互动体验的核心技术的独特机会，前瞻性地探索下一代数字化媒体的未来。

内容创作与互动的再定义

Khronos Vulkan 标准最新进展介绍

华为图形标准高级研究员：蔡康颖

博士毕业于中国科学院软件研究所，多年图形技术研究和标准化经验，2018 年加入华为、现任图形标准高级研究员，主要负责图形标准技术包括图形 API、3D 资产数据格式和编解码技术的研究和标准化工作，现带领团队参与 Khronos Vulkan 标准化工作。

议题简介：介绍 Khronos Vulkan 标准，标准最新进展，和一些新 Vulkan feature。

WGMath：用于跨平台 GPU 科学计算的可重复使用 WebGPU 着色器

Dimforge 创始人：Sébastien Crozet

Rust 生态系统中流行的开源库（包括 nalgebra 和 Rapier）的创建者和维护者，这些库专门用于线性代数、几何和物理。Dimforge 的创始人，专注于为工程、游戏和元宇宙开发几何和物理的未来。

议题简介：使用 WebGPU，WGMath 旨在通过为所有科学界提供可重复使用的 WGSL 着色器来将 GPU 科学计算引入所有平台。我们将讨论这个生态系统的基础知识、LLM、几何学和物理学的当前和未来特征。

WGPU：Rust 中的现代 GPU 编程

《编程 Rust》作者：Jim Blandy

Jim Blandy 是一名自由软件开发者，对编程语言很感兴趣，从理论到具体的代码细节都有涉猎。此外对日语、日本文化和美食、音乐、生物学以及天文学也很感兴趣。

议题简介：GPU 拥有卓越的性能——前提是你的问题能够适应其计算模型。超线程、局部内存空间、强制矢量化以及其他一些特性都会影响 GPU 代码的编写方式。WGPU 是一个跨平台的 GPU 编程 API。

可穿戴AI：无缝交互的未来

Gyges Labs 联合创始人兼首席人工智能科学家：綦思源

加州大学洛杉矶分校计算机科学专业博士。毕业后，他曾就职于谷歌，负责视频理解与搜索工作。他还曾担任北京通用人工智能研究院实验室主任。目前，在 Gyges Labs，他领导核心 AI 团队，为智能硬件产品开发定制化的协作 AI 解决方案。

议题简介：下一代可穿戴 AI 有望通过全天候舒适度和直观界面重新定义与技术的日常互动。这些设备将配备先进的显示技术，能够无缝融入用户的视野，以最少的侵入方式提供信息。与这些可穿戴设备的互动将如同人类对话一样自然，具备由AI驱动的个性化功能，能够适应个人偏好和行为。它们将充当中心节点，连接用户与智能设备网络，确保在生活各个方面的顺畅和集成体验。简而言之，下一波可穿戴 AI 将提供一种既不显突兀又紧密融入日常生活的个性化、互联体验。

神经手腕：可穿戴智能

OYMotion 首席运营官：陈瑶

OYMotion 的首席运营官。她的职业生涯横跨多个行业，积累了战略规划、运营管理及领导力方面的深厚技能。陈瑶擅长在复杂的商业环境中导航，并推动效率提升，这对 OYMotion 的成功起到了关键作用。

议题简介：神经手腕技术代表了可穿戴设备的一种创新方法，专门用于收集和分析生理电信号数据。这项先进的技术通常使用佩戴在手腕上的传感器来检测和记录各种生理参数，例如心率、血压和皮肤电活动。收集的数据为用户的健康状况提供了宝贵的见解，可用于多种应用，包括健康跟踪、医疗诊断和健康监测。

SPAD 图像传感器：2D 与 3D 融合的基础

ADAPS 市场副总裁：侯昌韬

ADAPS 的市场副总裁，北京大学工学硕士（MIE MS）。

议题简介：使用基于 SPAD（单光子雪崩二极管）检测器形式的传感器，可以同时输出点云（距离）和图像（RGB 颜色），实现 2D 和 3D 的完美融合。

以 OpenXR 赋能沉浸式混合现实体验

字节跳动 PICO XR Runtime 技术负责人：刘志鹏

毕业于浙江大学，多年XR领域开发经验。当前主要专注于 XR Runtime MR (Mixed Reality) 领域的业务功能设计与开发，以及 MR Native SDK 的设计与研发工作。带领团队实现了 PICO MR Runtime 从 0 到 1 的重要突破，持续对 MR 功能进行完善并提升性能，通过 SDK 将丰富的 MR 能力开放给开发者，不断完善 XR 开发生态。在 Khronos OpenXR 标准化领域，作为 MR 相关 EXT（Cross-Vendor） Extension 的核心贡献者之一，深度参与相关 OpenXR 标准扩展的制定工作，同时完成了多项 BD Vendor Extension 的设计与开发工作，持续推进 XR 跨平台开发生态建设。

议题简介：首先，介绍 OpenXR 的基础知识；其次，介绍 MR（混合现实）的基础知识；最后，介绍如何使用 OpenXR 开发身临其境的 MR 体验。

三维全真视频：挑战与实践

中国移动咪咕北京研究院高级前端开发总监：高山

毕业于浙江大学，专注于前端与音视频开发10余年，在视频彩铃、数字人、云渲染、三维视频等多项目从事核心研发工作，致力于下一代视频在前端领域交叉应用与实践。

议题简介：相较于传统二维视频, 三维全真视频可以实现 "照片级真实渲染" 与 "6DOF 沉浸交互" . 本次分享对全真视频的采集重建、编码传输、交互渲染、质量评价等维度介绍，按技术路线、研发实践、未来趋势三个部分展开，共建技术交流与探讨。

FaceChain在数字人领域的发展与演进

三一集团耘实验室首席架构师、FaceChain作者：孙佰贵

2014 年浙江大学计算机硕士毕业，导师为章国锋、鲍虎军老师。10 年阿里 AI 研发经验，3 年淘宝技术部&搜索事业部，7 年达摩院 & 通义。曾获得淘宝技术部最佳新人，阿里开源先锋人物等奖项。参与研发的大规模应用代表工作有：拍立淘（首例电商图搜大规模应用，引领行业发展）、DeepCTR（首例大规模深度学习搜索推荐系统，引领行业发展）、人脸识别，广泛应用于钉钉考勤机以及阿里云 API、FaceChain（首例人物写真数字人热门开源项目）等。曾获得 WiderFace 检测 6 项冠军，6 项国内外开源项目/个人奖项，目前发表合作顶会/刊论文 30+ 篇，开源 Star 8.9K +。目前就职于三一集团耘创新实验室，任首席架构师。

议题简介：FaceChain，是一个在人脸感知理解、数字写真、说话视频生成等方面都有创新的数字人开源项目，正在引领数字人领域的新浪潮。用户仅需一张照片，即可创建个性化的数字形象，并利用多样化的风格和模版库生成独特的写真作品。FaceChain 提供了全栈的数字写真生成功能，即包含保 10s 免训练数字写真生成功能，也包含 DIY 风格模型快速训练功能，目前正在构建数字写真内容生态中。除此之外，FaceChain 在生成说话视频和虚拟试衣上也有相应布局与产出。FaceChain 以其开源精神和社区活力，推动了技术的快速发展和广泛应用。本议题将深入探讨 FaceChain 的技术特点、社区建设、商业应用前景以及其在数字人领域的演进路径。

Open-Sora Plan：基于国产算力的视频生成大模型开源计划

Open-Sora-Plan 项目核心成员：程鑫华

北京大学计算机科学与技术博士在读，主要研究方向为AI视觉内容生成，曾以主要作者身份在国际顶级计算机视觉会议上发表论文多篇，谷歌学术引用400余次。现任 Open-Sora-Plan 开源视频生成大模型项目的核心成员。

议题简介：Open-Sora Plan 是支持全程在昇腾算力上进行计算的国产视频生成大模型开源计划。本次演讲介绍 Open-Sora Plan 的进展，细节和规划。

开源的文字转视频模型：CogVideoX

清华大学硕士：杨卓毅

议题简介：本议题将介绍 CogVideoX，它是一个大型扩散变换器模型，专为根据文本提示生成视频而设计。结果表明，CogVideoX 在多个机器指标和人工评估方面都表现出了最先进的性能。CogVideoX 的模型权重可通过 https://github.com/THUDM/CogVideo 公开获取。

Pointrix:一个可微分的基于点的渲染库

Pointrix 项目主要作者：陈林卓

南京大学博士，研究方向为神经渲染和语义/几何估计，也是 Pointrix 的主要作者之一。

议题简介：在过去的一年中，以三维高斯溅射为代表的可微分点云渲染技术取得了重大进展。本报告将介绍 Pointrix，这是我们的研究小组开发的可微分点云渲染优化框架。Pointrix 由模块化的 Python API、高效的 CUDA 后端和用户友好的实时渲染 GUI 界面组成，使其成为易于扩展的开源点云渲染框架。Pointrix 提供详细的快速入门指南和丰富的示例配置，允许用户通过在 Python 级别进行更改来实现特定的算法。它为研究人员提供了可移植的二次开发环境。此外，Pointrix 支持一系列与 3DGS 相关的主流工作，为可微分点云渲染领域的研究和应用提供强有力的支持。

OminiX：

为不同硬件平台上的生成式人工智能模型开发统一的库和加速框架

美国东北大学电子与计算机工程系副教授：王言治

美国马萨诸塞州波士顿东北大学电子与计算机工程系的副教授兼学院研究员，于 2009 年获得清华大学学士学位，2014 年获得南加州大学博士学位。他的研究兴趣主要集中在深度学习应用的模型压缩和平台特定加速方面。他的研究成果广泛发表在顶级会议和期刊上（如 DAC、ICCAD、ASPLOS、ISCA、MICRO、HPCA、PLDI、ICS、PACT、ISSCC、AAAI、ICML、NeurIPS、CVPR、ICLR、IJCAI、ECCV、ICDM、ACM MM、FPGA、LCTES、CCS、VLDB、PACT、ICDCS、RTAS、Infocom、C-ACM、JSSC、TComputer、TCAS-I、TCAD、TCAS-I、JSAC、TNNLS 等），被引用超过 18,000 次。他曾获得六项最佳论文奖和顶级论文奖，以及一次《通讯》（Communications of the ACM）封面专题文章的荣誉。

议题简介：在生成式 AI 时代，一般用户需要应用不同的基础模型、微调检查点和 LoRA。此外，数据隐私和实时性要求将有利于在设备上本地部署大规模生成式 AI 模型。开发一个“即插即用”框架是可取的，这样用户可以下载任何生成式 AI 模型，单击并在自己的设备上运行。这对当前的 AI 部署框架提出了重大挑战，这些框架通常很耗时，并且需要人类对硬件和代码生成的专业知识。我们介绍了 OminiX 的努力，这是朝着统一库和加速跨各种硬件平台的生成式 AI 模型迈出的第一步。结合我们独特的前端库和即将开源的后端即时加速技术，我们展示了即插即用的部署能力和各种生成式人工智能模型的最先进的加速能力，从图像生成、大型语言模型、多模型语言模型、语音生成和语音克隆、实时聊天引擎、实时翻译、视频生成、实时头像等等。这可以在没有服务器的情况下实现，只需在每个人自己的平台上即可。

元宇宙标准论坛概览

Khronos Group亚洲区副总裁：Dennis Fu

Dennis Fu 目前在 Khronos Group 担任区域副总裁，负责在中国及亚洲部分地区的业务发展。Khronos Group 是一个成立于 2000 年的全球技术标准联盟，在计算机视觉、3D 计算机图形、异构计算、3D 商务、AR/VR、传感器、元宇宙等相关领域开发 API 和其他技术标准。Dennis 在智能手机和无线通信、汽车连接、模拟/数字半导体及其他相关领域的技术产业拥有超过 30 年的工作经验。他从上海交通大学电气与计算机工程专业毕业，随后获得了美国马萨诸塞大学阿默斯特分校的电气工程硕士学位，以及圣地亚哥大学的工商管理硕士学位。目前生活在中国上海。

议题简介：元宇宙标准论坛是全球最重要的也是最大的专注于元宇宙标准制定的产业联盟之一。该组织致力于开放的元宇宙发展。本概览将为观众提供有关其历史和愿景的信息，以及其当前活动和进展的情况。