自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据派THU

发布清华大学数据科学相关科研动态、教学成果及线下活动

  • 博客(6053)
  • 收藏
  • 关注

转载 独家 | 人工智能和机器学习在现代质量管理中的应用

总之,AI和机器学习正在通过使组织能够在质量问题发生之前预测和预防它们,以及通过自动化检测过程来实现更高的准确性和效率,从而改变质量管理领域。该系统可以检测到即使是最小的瑕疵,如微小的划痕或油漆涂抹不均,这些可能是人工检查员容易忽略的。定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。通过自动化生产数据的分析,AI和ML释放了人力资源,使他们能够专注于更高层次的任务,如流程优化和战略规划。

2025-04-26 17:28:10 17

转载 开放原子开源“校源行”清华站成功举办

清华大学计算机系副教授陈渝表示,近年来持续探索操作系统课程的生物进化式实践理念,建立基于Rust编程语言的操作系统设计方法,并打破传统的师生边界与课堂界限,引入开源OS训练营、推动全国大学生OS比赛,形成开源共享&跨校共建的创新人才培养模式,有效推动了国内操作系统人才培养与生态建设。清华大学始终秉持“顶天、立地、树人”的理念,构建了独具特色的教育生态,并以技术驱动开源生态建设,推出了IoTDB、CodeGeeX、ChatGLM等开源项目,为全球开源社区贡献“清华智慧”。中国工程院院士孙家广。

2025-04-26 17:28:10 58

转载 【MIT博士论文】数据丰富的个性化因果推断

为此,我们提出了一种计算上可行的替代方法,用以替代最大似然估计在学习指数族过程中的应用。在第二部分中,我们借鉴了“双重稳健估计”(doubly robust estimation)的思想,使得在潜因子模型(latent factor model)下,结合黑盒矩阵补全方法进行因果推断成为可能。数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

2025-04-25 17:05:32 25

转载 ICLR‘25 Oral | 大型语言模型微调的学习动态

我们还扩展了这一框架,强调了一个独特的“挤压效应”(squeezing effect),用以解释在离线直接偏好优化(Off-Policy Direct Preference Optimization, DPO)中观察到的现象,即运行DPO时间过长会使期望的输出结果变得不太可能。与SFT相比,DPO的最大区别在于此处,DPO会出现一个负向的梯度,即图中向下的箭头。例如,中间部分显示的都是由GPT生成的内容,在学习这些序列时,它们之间的影响很大,但在语义上却毫无关系。的情况,指的是答非所问的序列。

2025-04-25 17:05:32 94

转载 不忘初心,砥砺前行——三维几何建模基础引擎GME课题组第三年度总结会议成功举办

来自杭州电子科技大学、中南大学、西安交通大学、华东师范大学、南开大学、沈阳建筑大学、重庆大学、沪东中华造船(集团)有限公司、云基智慧工程股份有限公司以及信创海河实验室的十位团队成员代表发表了讲话,他们纷纷表示一年多以来,在各位老师的关心和指导下,大家不畏艰难,全身心投入,一起解决棘手问题。愿以沪东中华甲板为试验场,开放真实场景,与团队打磨算法、验证模型,助力工业软件自主创新。清华大学孙家广院士指出,无论老师、学生还是企业,都应致力于开发“能用、管用、好用”的软件,切实提升人民的获得感、幸福感与安全感。

2025-04-25 17:05:32 55

转载 ICLR‘25 Oral | 大型语言模型微调的学习动态

我们还扩展了这一框架,强调了一个独特的“挤压效应”(squeezing effect),用以解释在离线直接偏好优化(Off-Policy Direct Preference Optimization, DPO)中观察到的现象,即运行DPO时间过长会使期望的输出结果变得不太可能。与SFT相比,DPO的最大区别在于此处,DPO会出现一个负向的梯度,即图中向下的箭头。例如,中间部分显示的都是由GPT生成的内容,在学习这些序列时,它们之间的影响很大,但在语义上却毫无关系。的情况,指的是答非所问的序列。

2025-04-25 17:05:32 11

转载 三维几何建模基础引擎GME 1.0.0测试版正式发布

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。“新”:GME包含内存管理、分类求交、布尔运算、模型轻量化等创新技术和功能,已申请8项专利、5项软著,产出3篇高质量论文与27篇学位论文。“稳”:通过百万量级自动化测试保证基础引擎接口的稳定性,例如:布尔运算单元测试数量超过60万个,包含人为构建测试和领域实际模型测试;2025年4月19日。

2025-04-25 10:03:13 31

转载 9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体

本研究首先介绍经典GAN损失函数的理论基础,随后使用PyTorch实现包括原始GAN、最小二乘GAN(LS-GAN)、Wasserstein GAN(WGAN)及带梯度惩罚的WGAN(WGAN-GP)在内的多种损失函数。梯度惩罚使模型训练过程更加稳定,同时减少了生成图像中的伪影,提高了最终生成结果的质量与真实度。本文通过详细分析GAN的经典损失函数及其多种变体,揭示了不同类型损失函数各自的优势:LS-GAN训练稳定性好,WGAN-GP生成图像清晰度高,而条件类GAN如CGAN则在可控性方面表现突出。

2025-04-24 17:02:01 17

转载 【剑桥博士论文】小样本高维数据上的表格机器学习

为此,我们还提出了两种新颖的数据增强方法,用于生成合成数据,以增加训练集的规模和多样性,从而捕捉到数据分布中更多的变异性。数据稀缺和高维性对机器学习模型带来了显著挑战,主要原因在于由于维数灾难和样本不足,模型更容易发生过拟合,无法充分刻画数据的潜在分布。我们的关键创新在于通过共享辅助网络来约束模型参数,这些辅助网络捕捉表格数据中潜在的关系,从而在一定程度上决定预测模型的参数,减少其自由度。总体而言,本论文在机器学习领域开辟了新的方向,旨在减轻过拟合问题,并在表格数据的生成与增强方面取得突破。

2025-04-24 17:02:01 39

转载 清华学霸、OpenAI姚顺雨:AI下半场开战,评估将比训练重要

谷歌的软件工程师(SWE)在解决 google3 问题时,随着对代码库的熟悉程度逐渐提高,解决问题的能力也会越来越好,但一个软件工程智能体在同一个代码库中解决许多问题时,并不会获得这样的熟悉度。然而,通过将推理引入强化学习环境的动作空间,我们能利用语言预训练的先验知识,实现泛化,并在决策时进行灵活的计算。于是,我们推出了 o 系列、R1、深度研究、利用计算机的智能体,及其他将来的成果。这不仅意味着创造新的和更难的基准测试,而是从根本上质疑现有的评估设置并创造新的,这样我们就被迫发明超越现有食谱的新方法。

2025-04-24 17:02:01 38

转载 【WWW2025】G-Refer:基于图检索增强的大型语言模型用于可解释推荐

*为提供个性化且具可解释性的推荐解释,现有研究通常将大型语言模型(Large Language Models, LLMs)的生成能力与协同过滤(Collaborative Filtering, CF)信息相结合。由用户-物品交互图中提取的CF信息能够有效捕捉用户行为与偏好,对于生成具有信息价值的推荐解释至关重要。此外,现有方法在将提取到的CF信息与LLMs集成时也存在困难,主要受限于CF信息的隐式表示形式及图结构与自然语言之间存在的模态差异(modality gap)。将检索得到的CF信息转化为。

2025-04-23 17:03:55 18

转载 CVPR 2025 | 魔鬼藏于统一性——即插即用分层多头注意力!

1、子空间划分:HMHA通过重新排列通道来分配不同的子空间给各个头,将通道空间分割为C = [C1, C2, . . . , Ch],其中C1 ≤ C2 ≤ ... ≤ Ch,确保每个子空间包含的信息是独立的,并且子空间的大小是不同的。图7. 特征可视化。Hierarchical Multi-head Attention (HMHA):提出了一种分层多头注意力机制(HMHA),通过在不同大小和包含不同信息的子空间中学习,鼓励每个头学习不同的上下文特征,从而缓解了标准多头注意力(MHA)中的冗余问题。

2025-04-23 17:03:55 139

转载 Python开源工具tempdisagg:轻松搞定时间序列分解,经济预测更精准!

不过,用户应注意每个库在序列完整性、填充和结构插值方面所做的默认假设,因为这些选择可能会微妙地影响最终的高频预测结果,尤其是在数据的边界处。来自哥伦比亚大学的研究者推出的 tempdisagg 框架,集成了8种经典计量经济学算法,并创新性地引入机器学习优化策略,成为 Python 生态中首个“开箱即用”的工业级解决方案。为了测试 tempdisagg 在真实高频数据上的性能,开发者使用了美国联邦储备经济数据(FRED)中的工业生产指数(INDPRO),作为从1947年1月到2024年12月的月度指标。

2025-04-23 17:03:55 79

转载 ICLR 2025 Oral IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

ChartMoE 为图表(Chart)这种独特于自然图像的输入,设计了多阶段的图文对齐方式,每一个阶段产物都是 MoE Connector 中的一个专家,这样的训练方式和模型设计不仅能获得更全面的视觉表征、显著提高 MLLM 的图表理解能力,还可以在不加入通用数据的情景下,减少模型对通用知识的遗忘。然而,Table 这种结构化文本格式,其中仅包含了每个数据点的数值,以及 xy 轴的含义等信息,几乎不保留视觉元素信息,如:颜色、图表类型、图形元素的相对关系等。

2025-04-22 17:02:44 38

转载 【博士论文】强化学习智能体的奖励函数设计

由于强化学习任务通常具备高度复杂性,因此需要精心设计的奖励函数,既能有效驱动学习过程,又能避免引发意料之外的行为后果。本论文深入探讨了奖励信号在强化学习中的关键作用,重点分析其对智能体行为及学习动态的影响,同时系统讨论了如延迟、模糊或复杂奖励信号所带来的挑战。在此场景中,专家掌握最优策略及其对应的价值函数,并据此设计奖励信号,以加速智能体向最优策略的收敛过程。该方法综合考虑了智能体的学习过程与探索行为,从而构建了一个自我改进的反馈机制,实现奖励信号的自主生成与优化。自适应可解释奖励设计方法。

2025-04-22 17:02:44 31

转载 PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制

此外由于PyTorch的CPU执行通常先于GPU执行,缓存分配器通过其池化机制提前准备内存资源,有助于隐藏执行过程中可能出现的延迟,进一步优化整体性能。分析第2至第4步可以发现,它们的内存使用模式高度相似——首先在前向传播过程中激活值内存占用快速增加,随后在反向传播过程中进行梯度累积,同时随着反向传播的进行,用于计算梯度的激活值存储逐步释放。在第一步中,分配器初始化并预分配了内存块,为后续计算步骤提供加速,使之后的操作无需重复寻找空闲内存区域。在处理GPU内存问题时,精确了解内存使用状况至关重要。

2025-04-22 17:02:44 40

转载 Rule-based强化学习≠古早逻辑规则!万字拆解o1多模态推理最新进展

Vision-R1-LlamaV-CI-11B 模型在 SFT 后的表现超过了 LLaVA-CoT-11B 和 Mulberry-Llama-11B,特别是在 MM-Math 基准上,Vision-R1-LlamaV-CI-11B 比 Mulberry-Llama-11B 提高了 7.4% 的准确率,验证了 Vision-R1-cold 数据集的优越性。相比之下,FRE-Text 和 Direct-RL-Sokoban 模型在这些任务中的表现较弱,验证了基于规则的强化学习对代理任务的有效性。

2025-04-21 17:03:49 101

转载 分位数回归+共形预测:Conformalized Quantile Regression实现更可靠的预测区间

在机器学习研究中,CQR已被应用于时间序列预测(例如,流行的NeuralProphet库将CQR作为生成预测区间的选项)、时空数据分析(确保不同区域的预测覆盖率)以及算法公平性(一项工作引入"公平"CQR变体,确保跨不同子群体的均等覆盖率)。同时,由于共形校准步骤的作用,该区间具有(1-α)的有限样本覆盖保证。换言之,CQR"通过合并分位数回归和共形预测,产生同时适应数据底层分布特性并维持严格覆盖保证的预测区间",从而实现双重目标:每个预测点处的区间尽可能窄,同时确保整体覆盖率的正确性。

2025-04-21 17:03:49 74

转载 【斯坦福博士论文】神经网络中的计算与学习机制

这些神经元——或至少在表面上非常相似的神经元——不仅存在于人类大脑中,也广泛存在于蠕虫、果蝇、老鼠、猴子中,甚至出现在现代人工智能系统的。在后续章节中,我们将从多个领域汲取案例——从啮齿动物的导航系统,到灵长类的概念学习,再到人工智能系统在视觉与语言任务中的表现——以研究这些神经电路中如何进行计算,并深入探讨学习过程在不同物种之间,以及在人类与人工神经网络之间的共性与差异。本论文所呈现的工作,建立在神经科学家、物理学家和计算机科学家数十年来提出的诸多洞见与理论框架之上,用于理解大脑中的计算过程。

2025-04-21 17:03:49 24

转载 DeepSeek-R1之后推理模型发展如何?Raschka长文梳理后R1时代14篇重要论文

区别于前几种成果的思路,该研究的核心在于通过推理时动态调整大语言模型(LLM)的权重参数,使其能够从错误中学习,而无需将失败的尝试存储在提示(prompt)中,从而避免了高昂的成本。在提升模型推理能力的探索中,研究人员并未遵循生成更多 token 以改进推理的常规思路,而是提出了一个通过在潜在空间中迭代循环深度块来扩展推理时间计算的模型。可以看到,现有的许多推理模型技术包括简单的基于 token 的干预措施到复杂的基于搜索和优化策略,它们的核心目标是增加推理计算量,甚至可以让相对较小的模型实现显著的改进。

2025-04-20 17:01:28 64

转载 【CVPR2025】Mamba 作为桥梁:连接视觉基础模型与视觉语言模型以实现跨领域的语义分割

视觉基础模型(Vision Foundation Models,VFMs)与视觉语言模型(Vision-Language Models,VLMs)因其强大的泛化能力,在**跨领域语义分割(Domain Generalized Semantic Segmentation,DGSS)**任务中获得了广泛关注[^1]。VFMs(如 DINOv2)在捕捉细粒度特征方面表现优异,而 VLMs(如 CLIP)在文本对齐方面具有强大的鲁棒性,但在处理粗粒度信息时则存在一定困难。为了解决这一问题,我们提出了。

2025-04-20 17:01:28 282

转载 时间序列异常检测:MSET-SPRT组合方法的原理和Python代码实现

MSET-SPRT是一种结合机器学习状态估计与统计假设检验的混合技术框架,通过其高精度和稳健性,被广泛应用于关键任务系统的监控与分析。分析结果表明,MSET-SPRT方法能够有效区分正常系统波动与异常行为,提供了一种可靠的多元时间序列异常检测方案。MSET-SPRT框架通过上述两种技术的协同作用,为多元数据异常检测提供了准确且高效的解决方案,特别适用于高维度、高相关性的时间序列数据分析。在异常检测领域,尤其针对工业机械、核反应堆和网络安全等复杂系统,传统方法往往难以有效处理高维度且相互关联的数据流。

2025-04-20 17:01:28 74

转载 从数据质量看,数据治理在做什么?

FineDataLink是一款集实时数据同步、ELT/ETL数据处理、离线/实时数据开发、数据服务和系统管理于一体的数据集成工具,可在Windows或Linux环境上单机/集群部署,全程基于B/S浏览器端进行任务开发和任务运维,更多精彩功能,邀您体验,希望能帮您解决企业中数据从任意终端到任意终端的处理和传输问题,让流动的数据更有价值!数据中台并不仅仅是数据治理工作的放大升级版,而是数据治理工作的深化,它强化了数据治理的深度和广度,并拓展了数据治理不涉及的数据应用领域。有效的数据治理可以提高企业的运营效率。

2025-04-19 17:00:37 39

转载 【CVPR2025】重新思考长时视频理解中的时序检索

T* 借助图像中常用的强大视觉定位技术,并引入了一种可适应的“时空变焦”机制,能够在时间与空间两个维度上进行精细搜索。本文重新审视了长时视频理解中的时序检索范式,并针对所有当前最先进(SOTA)长上下文视觉语言模型(Vision-Language Models, VLMs)中存在的一个基础性问题进行了探讨。该数据集上的实验结果揭示出当前研究在时序检索能力上的显著空白——当前最先进的检索方法在 LONGVIDEOBENCH 子集上。数据集,这是首个专为提升时序检索质量与效率而构建的数据集,包含。

2025-04-19 17:00:37 108

转载 GPT-4o的P图太火了,GPU在融化,官方终于限流了

OpenAI 曾报告说,GPT-4o 生图能力的大幅提升源自于一系列技术改进,在执行生成任务的过程中,AI 会对人类提出的 Prompt 进行细化,编写出一个更加详细的英文版提示词。比如奥特曼的推文下有人就在质疑:我试图生成辛普森一家风格的图片,ChatGPT 算完了才回复我「受到版权限制无法生成」,为什么不在生成图片之前就限制呢?由此生成的图片可以轻松获得人们构想的效果,具备完美的风格一致性,一举让此前还属于玩具的图像生成工具成为了兼具准确性与实用性的强大工具。AI 引发的革命,还在继续。

2025-04-19 17:00:37 132

原创 原创 | 机器学习模型的可解释性(二)

不妨看下面这张图,在LIME算法中,对于给定的点x,在其邻域D内理应都是可以应用局部线性模型去解释,然而,观察黄色方框内的区域底层模型的预测结果为“-”,却被解释模型预测成了“+”,而绿色椭圆内底层模型的预测结果为“+”,却被解释模型预测成了“-”。解释”黑箱”的主要思想之一是用一个解释性高的模型去局部模拟底层模型的生成,LIME用的是线性模型。虽然 Kernel SHAP 提高了与模型无关的 SHAP 值估计的样本效率,但通过将注意力限制在特定的模型类型上,可以开发更快的特定于模型的近似方法。

2025-04-18 17:02:26 994

转载 清华稀疏Attention,无需训练加速一切模型!

即 P 矩阵的很多值都接近 0。下表展示了 SpargeAttn 在各模型上的稀疏度,Attention 速度,以及各任务上的端到端精度,可以发现 SpargeAttn 在保证了加速的同时没有影响模型精度:(注:此论文中的所有实验都是基于 SageAttention 实现,目前 Github 仓库中已有基于 SageAttention2 的实现,进一步提供了 30% 的加速。通用性:Attention 虽然具备稀疏性质,但是其稀疏形状在不同的模型甚至同一模型的不同层中都是不同的,体现出很强的动态性。

2025-04-18 17:02:26 68

转载 【阿姆斯特丹博士论文】基于生成式神经网络的表示学习

本论文研究了生物感知中生成式表示学习的计算机制,并探索了对经典预测编码(Predictive Coding, PC)模型的生物学可行性扩展。我们围绕表示学习、感官输入因果因素的解缠、与神经动态的一致性以及超越经典预测编码的生成任务变体,提出并探讨了四个关键研究问题。数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。,能够将由自我运动引起的视觉光流与外部原因所致的运动模式有效区分。

2025-04-18 17:02:26 21

转载 前沿多模态模型开发与应用实战3:DeepSeek-VL2多模态理解大模型算法解析与功能抢先体验

而前两期课程介绍的 Qwen2.5VL、Janus-Pro 以及 DeepSeek-VL第一代模型,则是经典的 Dense 类的多模态理解大模型,会对所有模型参数进行计算和更新。与其前身 DeepSeek-VL 相比,DeepSeek-VL2在视觉编码器和语言建模部分都有了显著的提升,这主要是因为 DeepSeek-VL2引入了两项重大改进:动态切片策略,以及采用多头隐变量注意力(Multi-head Latent Attention,MLA)机制的 DeepSeek-MoE 语言模型。

2025-04-17 17:02:10 288

转载 开放原子校源行(清华站)重磅来袭

开放原子校源行(清华站)”活动在当天上午特设“地方高校开源教育推进论坛”,邀请地方工信部门代表、高校代表、企业代表以及开放原子开源基金会代表共聚一堂,深入探讨当前开源人才培养面临的挑战、机遇,分享实践案例,并探索创新模式。等方式,培育开源人才、推动开源文化和开源理念进校园、促进广大师生积极参与开源事业,为繁荣我国的开源生态提供坚实的人才基础。会场之外,精彩继续——20+高校开源案例展、开源创新项目展,以及丰富多彩的抽奖环节,期待您的参与!的嘉宾将分享开源教育实践心得和开源领域的最新技术趋势。

2025-04-17 17:02:10 29

转载 CVPR 2025 | 清华提出MambaIRv2:图像复原超强SOTA模型

这种mamba,或者更一般的自回归模型,的固有性质虽然对NLP任务很match,但是对非因果的视觉任务其实是存在局限的,因为大多数的视觉任务的所有token,即像素,是一次性可观的。实验中,我们发现这种计算复杂度事实上是可以减少的,即不同方向的扫描序列之间其实是十分类似的,这也就为我们v2模型的单方向扫描奠定了基础。得益于减少的扫描方向,与之前的在像素空间执行4次扫描的MambaIR相比,所提出的MambaIRv2的一个显著优势是它只需要在语义空间进行单次扫描。

2025-04-17 17:02:10 40

转载 【CVPR2025】场景飞溅:基于视频扩散模型的单图像动势三维场景生成

然而,在感知范围覆盖已知与未知区域的潜在特征(latent features)中,这种基于潜在层的动量会限制扩散模型在未知区域的生成能力。因此,我们进一步引入上述一致性较强的视频作为像素级动量,将其与不含动量直接生成的视频融合,以更好地恢复未知区域的信息。现有方法通常利用视频生成模型合成新视角,但普遍存在视频长度受限与场景一致性差的问题,进而在后续重建过程中容易出现伪影与失真。此外,我们对全局高斯表示进行微调,结合增强后的帧进行新帧渲染,并用于下一步的动量更新。在本文中,我们提出了一种名为。

2025-04-17 17:02:10 20

转载 【阿姆斯特丹博士论文】带约束学习的优化算法

所提出的OCL框架在确保计算效率与全局最优性的同时,具有良好的可扩展性,为实践者与研究人员提供了易于应用的工具。通过优化与机器学习的深度融合,本研究推动了数据驱动决策方法的发展,并为未来基于数据的优化研究奠定了理论与实践基础。在放射治疗场景中,OCL通过集成对辐射毒性风险的预测模型,实现了癌症治疗方案的个性化设计,在优化治疗效果的同时最大程度降低患者风险。在XAI应用中,针对已拟合的机器学习模型,OCL框架可用于生成可操作的反事实解释,满足诸如。接近性、多样性与对环境不确定性的鲁棒性。

2025-04-16 17:02:17 24

转载 【CVPR2025】基于组合表示移植的图像编辑方法

现有的编辑方法通常通过在文本嵌入空间或得分(score)空间中构建某种编辑方向,来设计特征操作流程。数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。在多个基于扩散模型的图像编辑任务中,实验结果表明,使用 CoLan 进行增强的方法在。,其中包含丰富的视觉术语与短语的描述与场景信息,用于支持潜在表示字典的构建。根据具体的编辑任务(如替换、添加或移除某一概念),我们执行一个。

2025-04-15 17:03:15 29

原创 原创|大模型分布式训练中的关键技术:数据并行(一)

在DDP中,不再有主GPU,每个GPU执行相同的任务,推理、损失函数计算、梯度计算等都可以在各个GPU上并行独立地完成,提高了训练的效率和速度。DDP实现并行训练的核心在于模型间的梯度同步,这是通过all-reduce(全归约)通信操作实现的,保证每个GPU会得到完全相同的梯度。同时,这也导致了主GPU和其他GPU之间的负载不均衡,比如主GPU可能使用了大量显存,而其他GPU的显存使用却很少,这可能导致主GPU的显存不足(OOM,即Out of Memory)。在人工智能领域,大模型参数规模日益增长。

2025-04-15 17:03:15 701

转载 计算加速技术比较分析:GPU、FPGA、ASIC、TPU与NPU的技术特性、应用场景及产业生态

这些设备通过定制化微架构,特别适合处理具有重复性和计算密集特性的操作,如深度学习中的矩阵乘法运算或电信领域的信号处理。现代GPU集成了数千个针对单指令多数据(SIMD)操作优化的处理核心,形成了高度并行的计算矩阵,特别适合处理需要同时执行相同指令的大规模数据集。对于通用计算任务,其原始计算性能可能低于高端GPU,而高昂的设计和生产成本限制了其应用范围,主要集中于大规模部署或特定领域应用。TPU在通用计算架构的GPU和高度专用化的ASIC之间找到了平衡点,通过对机器学习核心计算模式的优化实现高效处理。

2025-04-15 17:03:15 60

原创 科普之旅 | 大语言模型中的词嵌入Word Embedding

比如以GloVe为代表的基于计数的模型,通过让词向量的点积拟合全局的词共现矩阵来训练词向量,从而更好地捕捉了词之间的关系。此外,词袋模型产生的向量并不和词的语义或者语法挂钩,也不能描述词之间的关系。在上面的模型中,需要训练的总参数量为V×N+N×V,在V很大的时候模型的计算量依然很大。这一切,都离不开大语言模型的神奇魔力。2.在语料中依次滑动选择中心词,取中心词的前后C个单词作为上下文,计算这些词向量(此时还是词袋模型向量,长度为字典大小V)计算平均向量作为模型输入,输出层的训练标签则为中心词的词向量。

2025-04-14 17:02:44 553

转载 【博士论文】深度学习中的推理不一致性及其缓解方法

—即逻辑或推理模式上的缺陷时。由于其可能源于模型内部过程的高度不透明、训练数据中的偏差与不平衡,或任务本身的复杂性,检测与衡量这类推理偏差本身就是一项挑战。我们在设计的对抗性实验设置中对多类模型进行系统评估,这些设置明确暴露模型的内部推理过程,从而使我们得以量化模型中的显著推理偏差。近年来,深度学习(Deep Learning, DL)模型及其技术的迅猛发展,推动了其在多种任务与模态中的性能取得显著进步。为缓解训练数据中的偏见导致的不一致性,本文还提出了一种数据高效的采样方法,以提升模型的公平性与性能;

2025-04-14 17:02:44 29

转载 论文浅尝 | 迈向更全面的多模态大模型:多模态大模型如何突破模态与任务限制?(哈工大SCIR)

在交互涉及的模态数量方面,与Specific-MLLMs仅限于单一非语言模态与文本的双模态交互不同,Omni-MLLMs不仅支持多种双模态交互(dual-modality交互),还能实现涉及两种以上非语言模态的全模态交互(omni-modality交互),展现了Omni-MLLMs处理任意模态组合的能力。为实现不同向量空间的对齐并提升任意模态设置下的指令跟随能力,Omni-MLLMs扩展了特定模态大语言模型(Specific-MLLMs)的标准两阶段训练流程:多模态对齐预训练和多模态指令微调。

2025-04-14 17:02:44 29

转载 层次化多步奖励模型:增强大模型推理能力的新探索

此外,PRM的高注释成本也使大规模部署面临挑战。作者:Teng Wang(香港大学),Zhangyi Jiang(北京大学),Zhenqi He(香港大学),Wenhan Yang(香港大学),Yanan Zheng(新加坡国立大学),Zeyu Li(佐治亚理工学院),Zifan He(北京大学),Shenyang Tong(北京大学),Hailei Gong(清华大学)相比之下,本文提出的层次化奖励模型(HRM)评估多个步骤间的推理连贯性,能够识别并整合后续对早期错误的修正,从而实现更稳健可靠的评估。

2025-04-13 17:01:05 55

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除