- 博客(5533)
- 收藏
- 关注
转载 【牛津大学博士论文】用于本体工程的语言模型
来源:专知本文约1000字,建议阅读5分钟本体工程涵盖了本体开发生命周期中的各种任务。本文集中探讨了其中三个关键方面。本体论(Ontology)最初是一个哲学术语,指的是对存在及存在形式的研究。该概念被引入到人工智能(AI)领域,作为一种基于知识的系统,用于以机器可读的格式对实体及其关系进行建模和共享知识。本体为人类知识提供了结构化和逻辑化的形式,使其能够在特定领域内进行表达和可靠推理。与此同...
2024-11-02 17:01:06 6
转载 梯度累积的隐藏陷阱:Transformer库中梯度累积机制的缺陷与修正
来源:DeepHub IMBA本文4000字,建议阅读10分钟本研究不仅指出了一个长期被忽视的技术问题,也为未来的模型训练实践提供了重要的优化方向。在本地环境下对大规模语言模型(LLMs)进行微调时,由于GPU显存限制,采用大批量训练通常难以实现。为解决此问题,一般普遍会采用梯度累积技术来模拟较大的批量规模。该方法不同于传统的每批次更新模型权重的方式,而是通过在多个小批量上累积梯度,在达到预设...
2024-11-02 17:01:06 8
转载 时序异常检测新进展!华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型...
来源:时序人本文约1500字,建议阅读5分钟这篇文章提出了一种通用的时间序列异常检测模型。今天给大家介绍时间序列的首个通用异常检测模型,由华为诺亚方舟实验室与华东师范大学联合发表,创新性地从信息瓶颈角度考虑模型的泛化能力并提出双解码器对抗训练策略,在多个数据集上进行 zero-shot 异常检测也能达到其他模型全量训练的效果。【论文标题】Towards a General Time Serie...
2024-11-02 17:01:06 10
转载 KDD 2024 | 数据驱动的分布偏移检测与自适应
来源:时序人本文约2300字,建议阅读9分钟本文介绍一篇来 KDD 2024 的研究工作,该工作提出了一种用于检测和适应训练有素的模型中 CDS 的通用校准方法。从数据生成的角度来看,上下文驱动的分布偏移(CDS)在特定上下文中引入了预测偏差,并对传统的训练范式提出了挑战。本文介绍一篇来 KDD 2024 的研究工作,该工作提出了一种用于检测和适应训练有素的模型中 CDS 的通用校准方...
2024-11-01 17:24:27 4
转载 lintsampler:高效从任意概率分布生成随机样本的新方法
来源:Deephub Imba本文约1600字,建议阅读7分钟在实际应用中,我们经常需要从给定的概率密度函数(PDF)中抽取随机样本。这种需求在多个领域都很常见,例如:估计统计量进行蒙特卡洛模拟生成粒子系统用于物理仿真对于标准概率分布,如均匀分布或高斯分布(正态分布),numpy和scipy生态系统提供了现成的解决方案。通过numpy.random或scipy.stats模块,我们可以方便地...
2024-11-01 17:24:27 5
转载 深入滴滴出行中心,解密智能出行的创新密码——清华大学《数智安全与标准化》课程专题参访...
2024年10月29日,清华大学《数智安全与标准化》课程本学期的专题参访来到第一站——滴滴公司。本次调研参访活动由清华大学软件学院金涛老师带队,近70名来自不同专业背景的同学全程参与。DiDi Global Inc.(滴滴全球股份有限公司)是全球卓越的移动出行科技平台,在亚太、拉美等市场提供网约车、出租车召车、代驾、顺风车等多元化出行服务,并运营车服、外卖、货运业务。滴滴为车主、司机及骑手提供了灵...
2024-11-01 17:24:27 6
转载 【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
来源:专知本文约1000字,建议阅读5分钟本文提出了一种简单但可解释的提示优化器(IPO),它利用大型语言模型(LLM)动态生成文本提示。预训练的视觉-语言模型(如CLIP)已经成功适应了多种下游任务。然而,它们的性能很大程度上依赖于输入文本提示的具体性,这需要精心设计提示模板。当前的提示优化方法通常通过梯度下降来学习提示,将提示视为可调参数。然而,这些方法容易导致在训练时看到的基础类别上的过...
2024-11-01 17:24:27 7
转载 独家 | 用AI打造你的竞争优势
作者:Dr. Janna Lipenkova翻译:陈超校对:zrx本文约5300字,建议阅读13分钟本文通过举例真实的AI商业应用,探索他们竞争优势的主要来源,并对AI未来的发展方向进行了分析和展望。为什么AI的未来不是自动化——它是工艺、策略和创新版权:Valentin Müller当我与公司顾客聊天时,总是会提到这样一个理念,AI虽然很强大,但是不会赋予任何一个公司长久竞争力。毕竟,在过去...
2024-10-31 17:06:22 2
转载 【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法
来源:专知本文约1000字,建议阅读5分钟本论文的重点是识别一些阻碍RL代理在特定环境中学习的关键挑战,并改进现有方法,以提高代理的性能、样本效率以及学习到的策略的泛化能力。强化学习(RL)是一种框架,代理通过与环境交互获取数据驱动的反馈,利用奖惩机制学习如何做出决策。深度强化学习(Deep RL)将深度学习与强化学习相结合,利用深度神经网络的强大功能来处理复杂的高维数据。在深度RL框架下,我...
2024-10-31 17:06:22 7
转载 闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
来源:Deephub Imba本文约6000字,建议阅读10分钟本文我们将使用聚类和重新排序等技术来实现如何从语义搜索结果中过滤无关内容。上图为执行语义搜索前的聚类演示 ,嵌入技术是自然语言处理的核心组成部分。虽然嵌入技术的应用范围广泛,但在检索应用中的语义搜索仍是其最常见的用途之一。尽管知识图谱等可以提升检索的准确率和效率,但标准向量检索技术仍然具有其实用价值。许多文章讨论了如何从语义搜索结...
2024-10-31 17:06:22 7
转载 【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性
来源:专知本文约1000字,建议阅读5分钟我们提出了一种新的动态软剪枝方法——GDeR,该方法通过可训练的原型在训练过程中动态更新训练“篮子”。训练高质量的深度模型需要大量的数据,这会导致巨大的计算和内存需求。近年来,数据剪枝、蒸馏和核心集选择等方法被开发出来,以通过保留、合成或从完整数据集中选择一个小而信息丰富的子集来简化数据量。在这些方法中,数据剪枝带来的额外训练成本最低,并提供了最实际的...
2024-10-30 17:03:42 4
转载 如果你的PyTorch优化器效果欠佳,试试这4种深度学习中的高级优化技术吧
来源:DeepHub IMBA本文约3700字,建议阅读10+分钟本文将介绍四种高级优化技术,这些技术在某些任务中可能优于传统方法,特别是在面对复杂优化问题时。在深度学习领域,优化器的选择对模型性能至关重要。虽然PyTorch中的标准优化器如SGD、Adam和AdamW被广泛应用,但它们并非在所有情况下都是最优选择。本文将介绍四种高级优化技术,这些技术在某些任务中可能优于传统方法,特别是在面对...
2024-10-30 17:03:42 6
转载 活动预告丨Python科研应用分享会——Python数据科学应用
第三期 Python科研应用分享会10月29日周二晚19:00重磅来袭!本次活动为第三期【Python科研应用分享会】,我们非常荣幸地邀请到自动化系优秀博士生陈鹏宇同学为我们分享Python编程入门知识,并设有提问环节,为同学们答疑解惑。讲座简介本系列讲座由五道口金融学院和大数据协会联合举办,以初级Python入门为主,是为非计算机、非数据科学专业但有志于学习编程的同学量身定制的精品讲座,旨...
2024-10-29 17:01:56 5
转载 机器学习中空间和时间自相关的分析:从理论基础到实践应用
来源:DeepHub IMBA本文3800字,建议阅读7分钟本文探讨了空间和时间自相关在野火风险预测中的应用。空间和时间自相关是数据分析中的两个基本概念,它们揭示了现象在空间和时间维度上的相互依赖关系。这些概念在各个领域都有广泛应用,从环境科学到城市规划,从流行病学到经济学。本文将探讨这些概念的理论基础,并通过一个实际的野火风险预测案例来展示它们的应用。图1: 空间自相关的不同模式:(a) 负...
2024-10-29 17:01:56 9
转载 【博士论文】高效且有效的基础大型多模态模型学习
来源:专知本文约1000字,建议阅读5分钟大型多模态模型(LMMs)的研究已经成为深度学习领域的重点,展示了其在当代研究中的重要性。LMMs能够处理来自不同模态的数据,通过利用互补信息来执行多种任务,从而提高预测能力。LMMs的学习过程分为两个关键阶段:计算密集的预训练阶段,旨在从大规模的噪声数据中获取通用表示;以及后续的微调阶段,专注于将预训练模型调整到特定任务上。传统上,基础LMMs的预训...
2024-10-29 17:01:56 8
转载 “全国数标委”正式成立!
2024年10月28日,全国数据标准化技术委员会(以下简称“全国数标委”)成立大会暨第一次全体委员会议在京召开。全国数标委正式成立。国家数据标准化建设工作正式迈入新进程。2024年10月28日,全国数据标准化技术委员会成立大会暨第一次全体委员会议在京召开。国家数据局党组书记、局长刘烈宏出席成立大会并讲话。市场监管总局、中央网信办、工业和信息化部、财政部有关司局负责同志,全国数标委主任委员、副主任委...
2024-10-29 17:01:56 11
转载 独家 | 花8小时学习Parquet的发现
作者:Vu Trinh翻译:陈之炎校对:zrx本文约4300字,建议阅读8分钟本文为你简要介绍Parquet的数据结构。标签:数据工程 数据分析 软件工程 大数据存储最终,我静下心来学习Parquet。由作者创建本图片引言想象如果我有一个待办事项列表,里面包含了我想写的话题,Apache Parquet已经在列表里待了一段时间了。本周,我从待办事项列表中拿出Parquet,掸去了厚厚的灰尘,并承...
2024-10-28 17:01:55 10
转载 【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展
来源:专知本文约1000字,建议阅读5分钟本论文推动了稀疏和低秩矩阵优化理论和应用的发展,聚焦于统计学和机器学习中出现的相关问题。在运筹学、机器学习和统计学的众多基础问题中,自然形成了基数或秩约束的优化问题。稀疏解因其可解释性和存储优势而受到青睐。此外,在机器学习背景下,稀疏解不仅能提高模型的泛化能力,还具有在高维数据集中进行特征提取的自然解释。另一方面,由于矩阵的秩等同于其奇异值向量的基数,...
2024-10-28 17:01:55 14
转载 信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用...
来源:DeepHub IMBA本文约4000字,建议阅读10+分钟本文将深入探讨KL散度及其他相关的重要散度概念。在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)作为一个基础概念,在量化概率分布差异方面发挥着关键作用。它常用于衡量当一个概率分布用于近似另一个概率分布时的信息损失。本文将深入探讨KL散度及其他相关的重要散度概念。KL散度KL散度,也称为相对...
2024-10-28 17:01:55 23
转载 【博士论文】随机逼近在黎曼流形和度量空间上的应用
来源:专知本文约1000字,建议阅读5分钟本论文通过当代视角重新探索了随机逼近方法,重点研究其在非欧几里得空间中的动态特性和长期行为。随机逼近方法是一类迭代算法,在涉及噪声和不完整观测的应用中起着至关重要的作用。该方法起源于Robbins和Monro(1951年)以及Kiefer和Wolfowitz(1952年)的开创性研究,旨在尽管存在噪声和偏差的情况下,推动系统朝向指定目标。这类迭代过程因...
2024-10-27 17:02:09 11
转载 贝叶斯回归入门:轻松掌握概率思维的强大工具
来源:数据分析学习与实践本文约3500字,建议阅读9分钟本文深入探讨Transformer模型中三种关键的注意力机制:自注意力、交叉注意力和因果自注意力。在实践中运行 MCMC 采样算法资本资产定价模型(CAPM)是一种金融模型,有助于根据与整体市场相比的风险水平预测投资的预期收益。CAPM 回归是一种统计技术,用于计算 CAPM 公式中的变量值。这一过程有助于投资者理解资产的预期回报与其相...
2024-10-27 17:02:09 16
转载 Nat. Commun. | 利用统计学驱动的图网络准确预测蛋白质功能
来源:DrugAI本文约4000字,建议阅读5分钟在本论文中,作者提出了一种方法,利用统计驱动的图网络仅从序列中预测蛋白质功能。今天为大家介绍的是来自Benoit Kornmann团队的一篇论文。理解蛋白质功能对于掌握许多关键生物活动背后的复杂机制至关重要,并在医学、生物技术和药物开发等领域具有深远的影响。然而,超过两亿种蛋白质仍未被表征,计算研究主要依赖蛋白质结构信息来预测质量不一的功能注释...
2024-10-27 17:02:09 17
转载 【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化
来源:专知本文约1000字,建议阅读5分钟我们提出了双原型演化 (Dual Prototype Evolving, DPE),这是一种新的VLMs测试时自适应方法,可以有效地从多模态中累积任务特定知识。测试时自适应 (Test-time adaptation)使模型能够在无标签测试样本下对多样化数据进行泛化,在现实应用中具有重要价值。近期,研究人员将这种设置应用于高级预训练视觉-语言模型 (...
2024-10-26 17:01:29 13
转载 如何处理多频段时序特征?这个Transformer变体显著提升预测效果
来源:时序人本文约2300字,建议阅读9分钟研究者为了验证 Fredformer 模型的有效性,设计了一系列的实验。Transformer 模型已在时间序列预测中展现了卓越的性能。然而,在一些复杂场景中,它倾向于学习数据中的低频特征,而忽略了高频特征,表现出一种频率偏差。这种偏差阻碍了模型准确捕捉重要的高频数据特征。本文介绍一篇来自 KDD 2024 的论文,这是首篇研究时间序列预测中频...
2024-10-26 17:01:29 14
转载 数据准备指南:10种基础特征工程方法的实战教程
来源:Deephub Imba本文约5000字,建议阅读9分钟本文深入探讨Transformer模型中三种关键的注意力机制:自注意力、交叉注意力和因果自注意力。在数据分析和机器学习领域,从原始数据中提取有价值的信息是一个关键步骤。这个过程不仅有助于辅助决策,还能预测未来趋势。为了实现这一目标,特征工程技术显得尤为重要。特征工程是将原始数据转化为更具信息量的特征的过程。本文将详细介绍十种基础特...
2024-10-26 17:01:29 25
转载 【NeurIPS2024】MoTE:在视觉语言到视频知识转移中协调泛化与专门化
来源:专知本文约1000字,建议阅读5分钟在本文中,我们提出了MoTE,一个新颖的框架,能够在一个统一的模型中平衡泛化和专门化。从大规模基础模型中转移视觉语言知识以用于视频识别已经被证明是有效的。为了弥合领域差距,额外的参数模块被添加以捕捉时间信息。然而,随着专用参数数量的增加,零样本泛化能力逐渐减弱,使得现有的方法在零样本泛化和闭集性能之间需要进行权衡。在本文中,我们提出了MoTE,一个新颖...
2024-10-25 17:03:04 13
转载 独家 | 如何为GenAI应用程序选择架构
作者:Lak Lakshamanan翻译:陈之炎校对:ZRX本文约6200字,建议阅读10+分钟本文将描述一个框架,助力实现多因素之间的平衡。标签:LLM,智能体,设计模式选取最简单、最快、最便宜的架构,以平衡LLMs的创造力和风险。假设希望LLM生成一封感谢信,首先需要查看LLM教程,按照教程中建议的方式调用API,发送提示语,并使用响应。具体可以这样做:虽然这可以用于实现概念验证(PoCs)...
2024-10-25 17:03:04 27
原创 干货 | 清华Python编程入门分享会第一期
本次分享会是由清华大学五道口金融学院和大数据协会联合举办的系列讲座,以初级python入门为主,是为非计算机非数据科学专业,但有助于学习编程的同学量身定制的精品讲座。目标是为未来数据分析人才配备先进的编程理念和操作技巧,强化学科研究能力,促进跨学科交流与合作。活动分为三期,第一期由自动化系优秀博士生陈鹏宇主讲,主要介绍Python的安装使用、基本语法功能以及自学指南等内容。一、Python第三方库...
2024-10-25 17:03:04 755
转载 独家|如何在数十亿用户中高效检索账号名是否已经存在?
作者:Aditi Mishra翻译:wwl校对:zrx本文约3000字,建议阅读7分钟在这篇文章中,我们将探讨三种方法:传统的数据库查询、使用Redis的缓存策略以及使用布隆过滤器的优化方法。简介你是否遇到过注册APP时,发现你偏好的账户名已经被注册了?虽然这看起来可能只是一个小小的麻烦,但对于处理大量用户的应用程序来说,这是一个重大的技术挑战。判断用户名是否可用可以通过几种方式来实...
2024-10-24 17:02:19 19
转载 【NTU博士论文】面向可信赖的推荐系统:构建可解释且无偏的推荐系统
来源:专知本文约1000字,建议阅读5分钟本研究重点探讨了可信赖推荐系统中的两个重要方面:可解释性和公平性,并旨在开发一个透明且无偏的推荐系统,以提高推荐系统的透明度和公平性。面向可信赖推荐系统:构建可解释且无偏的推荐系统https://dr.ntu.edu.sg/handle/10356/175790随着在线内容的爆炸性增长,如电子商务平台(如亚马逊、淘宝)上的商品曝光量不断增加,用户在大量...
2024-10-24 17:02:19 21
转载 VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用图像信息进行时间序列预测...
来源:DeepHub IMBA本文约4000字,建议阅读10+分钟VisionTS作为一种创新的时间序列基础模型,在预测任务中展现出了卓越的性能。构建预训练时间序列模型时面临的主要挑战是什么?获取高质量、多样化的时间序列数据。目前构建基础预测模型主要有两种方法:迁移学习LLM:通过针对时间序列任务定制的微调或分词策略,重新利用预训练的大型语言模型(LLM),如GPT-4或Llama。从零训练:...
2024-10-24 17:02:19 113
转载 仅一行代码,使LLaMA3在知识编辑任务上表现暴涨35%!您确定不来试试嘛?
本文约2000字,建议阅读5分钟仅需在主流编辑方法中加入一行代码,便可暴涨 LLaMA3 在序列知识编辑任务上。LLMs 常因错误/过时知识产生幻觉,而基于新知识微调耗时且易过拟合、引入额外的知识库或参数模块又会带来不断增加的存储空间压力。因此,基于 “Locate-then-Edit” 的知识编辑(如 ROME)被提出,用“少时间成本、零空间成本”来精准更新特定知识。在此基础上,中科大 LDS ...
2024-10-23 17:04:22 21
转载 活动预告|Python科研应用分享会——Python进阶
第二期 Python科研应用分享会10月24日周四晚19:00重磅来袭!本次活动为第二期【Python科研应用分享会】,我们非常荣幸地邀请到自动化系优秀博士生陈鹏宇同学为我们分享Python编程入门知识,并设有提问环节,为同学们答疑解惑。讲座简介本系列讲座由五道口金融学院和大数据协会联合举办,以初级Python入门为主,是为非计算机、非数据科学专业但有志于学习编程的同学量身定制的精品讲座,旨在...
2024-10-23 17:04:22 23
转载 【NeurIPS2024】DA-Ada:学习领域感知适配器以进行领域自适应目标检测
来源:专知本文约1000字,建议阅读5分钟我们提出了一种新颖的、专门针对DAOD任务设计的领域感知适配器(Domain-Aware Adapter, DA-Ada)。领域自适应目标检测(Domain Adaptive Object Detection, DAOD)旨在将训练于已标注源领域的检测器泛化到未标注的目标领域。由于视觉-语言模型(Visual-Language Models, VLMs...
2024-10-23 17:04:22 25
转载 CVPR 2024|多模态大模型引爆!“因果推理”加持, 解锁链接上下文学习的无限潜能...
来源:多模态机器学习与大模型本文约2300字,建议阅读5分钟本文提出了链接上下文学习(LCL),强调“因果推理”来增强 MLLM 的学习能力。Link-Context Learning for Multimodal LLMs作者:Yan Tai, Weichen Fan, Zhao Zhang, Ziwei Liu作者单位:南洋理工大学 S-Lab,商汤科技,东方工学院宁波数字孪生研究所论文链...
2024-10-23 17:04:22 66
转载 【博士论文】学习对象和关系的结构化表示
来源:专知本文约1000字,建议阅读5分钟本论文探讨了如何通过帮助机器学习系统克服绑定问题,使其具备更接近人类的智能。本论文探讨了如何通过帮助机器学习系统克服绑定问题,使其具备更接近人类的智能。具体来说,我们希望神经网络能够灵活、动态地表示并关联不同的实体。论文分为两部分。第一部分,我们研究了基于图的表示中的归纳偏置;第二部分,我们开发并研究了一种新的表示格式,以解决绑定问题。我们的主要贡献如...
2024-10-22 17:01:31 17
转载 基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
来源:DeepHub IMBA本文约3500字,建议阅读7分钟本文探讨了Python脚本与动态模态分解(DMD)的结合应用。本文探讨了Python脚本与动态模态分解(DMD)的结合应用。我们将利用Python对从OpenFOAM模拟中提取的二维切片数据进行DMD计算。这种方法能够有效地提取隐藏的流动模式,深化对流体动力学现象的理解。使用开源CFD软件OpenFOAM,有两种方法可以对CFD数据...
2024-10-22 17:01:31 29
转载 细谈大模型监督微调SFT:实战经验技巧和debug分析思路
来源:PaperWeekly本文约15000字,建议阅读15+分钟本文介绍了大模型的 SFT 如何去做。这篇文章介绍一下大模型的 SFT 如何去做。SFT 其实没有太多的技术细节和琐碎工作需要科普。因此,我会默认读者们都知道 SFT 是做什么的以及如何去做一些简单的 SFT 微调工作,我主要是分享一些经验技巧和 debug 的分析思路。老样子,为避免老板开了我,涉及到 agent / 复杂指令...
2024-10-22 17:01:31 65
转载 时序知识图谱表示与推理的研究进展与趋势
来源:专知本文约1000字,建议阅读5分钟知识图谱的规模越来越大, 能储存的知识越来越广泛, 逐步出现了各种领域知识图谱。知识图谱作为近年来人工智能领域的一大热点研究方向,已应用于现实中多个领域.但是随着知识图谱应 用场景日益多样化,人们逐渐发现不随着时间改变而更新的静态知识图谱不能完全适应知识高频更新的场景.为此,研究者们提出时序知识图谱的概念,一种包含时间信息的知识图谱.对现有...
2024-10-21 17:00:32 17
转载 模型无关的局部解释(LIME)技术原理解析及多领域应用实践
本文约6000字,建议阅读15分钟本文介绍了模型无关的局部解释技术原理。在当前数据驱动的商业环境中,人工智能(AI)和机器学习(ML)已成为各行业决策制定的关键工具。从金融机构的信贷风险预测到医疗保健提供者的疾病诊断,AI模型正在塑造对生活和业务有深远影响的结果。然而随着这些模型日益复杂化,一个重大挑战浮现:即"黑盒"问题。许多先进的AI模型,尤其是深度学习算法,其运作机制甚至对其创建者而言也...
2024-10-21 17:00:32 17
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人