- 博客(5103)
- 资源 (4)
- 收藏
- 关注
原创 Show-o2:改进的原生统一多模态模型
摘要本文提出了改进的原生统一多模态模型,即 Show-o2,其结合了自回归建模和流匹配。该模型构建于 3D因果变分自动编码器空间之上,通过空间(-时间)融合的双路径构建统一视觉表征,在确保有效多模态理解与生成的同时,实现了在图像和视频模态上的可扩展性。基于语言模型,自回归建模和流匹配分别原生应用于语言头和流头,以促进文本 Token 预测以及图像/视频生成。本文设计了两阶段训练方案,以实现有效学习并扩展到更大模型。
2026-03-27 23:18:09
221
原创 Emu3.5:原生多模态模型是世界学习者
我们推出 Emu3.5,这是一个大规模多模态世界模型,原生地预测视觉与语言的下一个状态。Emu3.5 在包含超过 10 万亿代币的视觉‑语言交织数据语料库上,通过统一的下一代币预测目标进行端到端预训练,这些数据主要源自互联网视频的连续帧和成绩单。该模型自然地接受交织的视觉‑语言输入,并生成交织的视觉‑语言输出。Emu3.5 进一步通过大规模强化学习进行后训练,以增强多模态推理和生成能力。
2026-03-27 20:49:01
157
原创 DevOps04-build01:制品【制品就是最终发布到服务器上的包文件(jar/war等),通过命令或脚本启动该包来提供服务】
MAVEN/GRADLE:Java
2026-03-23 00:05:04
9
原创 DevOps03-GitLab&Jenkins集成01:使用GitLab的代码存储&Jenkins的Pipeline功能【不使用GitLab的CI/CD功能】【代码提交自动触发Jenkins】
安装插件后,重启Jenkins。随便找一个pipeline项目,出现下图红框中的选项即表示安装成功。
2026-03-23 00:04:42
27
原创 DevOps03-GitLab02-CI/CD06:配置提交Pipeline【提交代码后自动触发Pipeline运行(配置.gitlab-ci.yml文件)】
2026-03-23 00:04:34
7
原创 DevOps06:Argo
下面我把放在完整 DevOps 体系里讲清楚,并给你一套适合新手落地的上手路径。;。Argo CD 官方将自己定义为“面向 Kubernetes 的声明式 GitOps 持续交付工具”。
2026-03-23 00:03:15
8
原创 DevOps03-GitLab02-CI/CD04:Pipeline运行控制【workflow控制、trigger触发、API触发】
👉 默认情况:执行 pipeline。👉 作用:定义全局变量,供后续使用。,我用“简介风格”帮你拆解语法👇。→ 一定执行 pipeline。从上到下匹配,命中即停止。
2026-03-22 19:29:26
10
原创 DevOps03-GitLab02-CI/CD03:Pipeline的job作业配置(variable、tags、stage、script、when、retry、need、parllel)
2026-03-22 19:21:49
13
原创 DevOps03-GitLab02-CI/CD02:CI/CD设置【Pipeline开发工具】
DevOps03-GitLab02-持续集成与部署(CI/CD)02:进阶(Pipeline开发工具、CI/CD设置、Pipeline核心语法)
2026-03-22 11:16:33
18
原创 DevOps03-GitLab02-CI/CD01:Pipeline开发工具CI/CD简介(.gitlab-ci.yml文件)【GitLab CI/CD 对标 Jenkins】
读取中...
2026-03-22 11:04:35
19
原创 DevOps02-Jenkins02:Jenkins使用指南
使用GitLab CI 的话,可以不用Jenkins(相对于GitLab来说,Jenkins是独立的)
2026-03-21 22:27:23
18
原创 DevOps01:什么是DevOps?CI/CD?DevOps的演进
使用GitLab CI 的话,可以不用Jenkins(相对于GitLab来说,Jenkins是独立的)
2026-03-21 14:24:27
16
原创 参数初始化:Xavier、Kaiming 与 LLaMA2 的 0.02 初始化
很多同学第一次学神经网络时,都会碰到一个问题:“模型一开始的参数,为什么不能随便设?”再继续学,就会看到这些名字:看上去很复杂,其实它们都在回答同一个核心问题:这篇文章会尽量用高中生也能理解的方式,把这件事讲清楚。可以把神经网络想成很多层“水管”连在一起。如果一开始阀门开得太大,那么水流会越来越猛,最后失控。如果一开始阀门开得太小,那么水流会越来越弱,最后几乎没有信息了。所以参数初始化,本质上就是:这个范围不能乱选。很多人最先想到的方法是:“既然不知道怎么设,那就全部设成 000 吧。”这其实不行。原因是
2026-03-18 00:22:28
21
原创 随机矩阵的谱范数:‖A‖₂=Θ[σ×(√m+√n)]
矩阵的谱范数定义为∣∣A∣∣∗2max∗∣∣x∣∣21∣∣Ax∣∣2∣∣A∣∣∗2max∗∣∣x∣∣21∣∣Ax∣∣2先拿一个长度为111的向量xxx;用矩阵AAA去作用它,得到AxAxAx;看长度被放大了多少;在所有单位向量里,取最大的放大倍数。所以,谱范数就是:矩阵把向量拉长的最大倍数。如果只是看某一列,你会得到σmσm如果只是看某一行,你会得到σnσn。
2026-03-17 23:34:41
258
原创 测试02测试23测试02测试23测试02测试230402-1
众所周知,完整训练一次大型LLM的成本是昂贵的,这就决定了我们不可能直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数,找到最优组合后直接迁移到大模型上。尽管这个想法很朴素,但要实现它并不平凡,它需要我们了解常见的超参数与模型尺度之间的缩放规律,而muP正是这个想法的一个实践。
2026-03-16 21:22:07
31
原创 GitLab 中接入 AI Code Review 完整指南
本文目标是为一个示例项目接入自动化 AI Code Review,效果是:GitLab 官方说明,Merge request pipelines 可以在创建或更新 MR 时运行专门的 CI/CD 任务;CI/CD 任务由仓库根目录的 配置。(GitLab 文档)为了避免和你的真实项目混淆,本文统一使用这些示例名称:最终链路是:开发者提交 MR → GitLab MR Pipeline 触发 → Runner 执行 Python 脚本 → 脚本读取 MR diff → 调用 GLM-5 → 通过 GitLa
2026-03-16 00:04:56
524
原创 测试02测试23测试02测试23测试02测试230403
众所周知,完整训练一次大型LLM的成本是昂贵的,这就决定了我们不可能直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数,找到最优组合后直接迁移到大模型上。尽管这个想法很朴素,但要实现它并不平凡,它需要我们了解常见的超参数与模型尺度之间的缩放规律,而muP正是这个想法的一个实践。muP,有时也写μP,全名是Maximal Update Parametrization,出自论文《Tensor Programs V: Tuning Large Neural Network
2026-03-14 16:57:40
31
原创 MLOps工具深度对比:实验管理类(MLflow,Weights&Biases)、端到端平台类(Kubeflow,Databricks)、工作流编排类(Airflow,Argo)
机器学习运维(MLOps)是一套旨在标准化和自动化机器学习生命周期管理的实践与工具集合,它弥合了数据科学实验与生产部署之间的鸿沟。随着企业机器学习项目复杂度的提升,临时性、手工操作的模型开发方式已无法满足需求,MLOps应运而生,成为确保模型可靠性、可重复性和可扩展性的关键框架。据行业分析,MLOps市场规模已从2022年的11亿美元快速增长,预计到2027年将达到59亿美元,年复合增长率超过40%。这种快速增长反映了企业对高效机器学习工作流日益增长的需求。
2026-03-11 21:46:43
266
原创 测试02测试68测试02测试68测试02测36测试02测试68测试02测试68测试02测36
测试02测试68测试02测试68测试02测36测试02测试68测试02测试68测试02测36测试02测试68测试02测试68测试02测36。
2026-03-08 23:13:37
25
原创 测试02测试23测试02测试23测试02测试230402-2
初探muP:超参数的跨模型尺度迁移规律众所周知,完整训练一次大型LLM的成本是昂贵的,这就决定了我们不可能直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数,找到最优组合后直接迁移到大模型上。尽管这个想法很朴素,但要实现它并不平凡,它需要我们了解常见的超参数与模型尺度之间的缩放规律,而muP正是这个想法的一个实践。muP,有时也写μP,全名是Maximal Update Parametrization,出自论文《Tensor Programs V: Tuning L
2026-03-08 23:12:22
32
《Approaching (Almost) Any Machine Learning Problem》
2023-09-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅