• 博客(1233)
  • 收藏
  • 关注

原创 【一千个论文合集】计算机科学的26个细分领域近年必读论文集合

AMiner必读论文是一个可以帮您了解某个领域、机构、期刊、会议的学术专辑,包括必读论文和代表学者,由AI初筛+学者复核后提供给您,您可以收藏为自己的论文清单

2022-05-11 15:17:34 13148

原创 大型语言模型计算效率优化,有哪些方法可行?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-05-10 13:50:34 964

原创 大型语言模型基准数据集泄露:数据隐私保护面临的新挑战

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-05-07 11:59:06 833

原创 大型语言模型如何进行自我评估?揭秘基准测试的新方向!

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-30 14:20:31 646

原创 LLM在语言错误检测上的表现:有何亮点和不足?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-29 11:10:12 641

原创 AI挑战人类编程能力,谁将更胜一筹?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-28 14:50:33 797

原创 AI的自我进化框架:大型语言模型如何不断提升智能水平?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-26 11:36:18 590

原创 当AI学会共情:大型语言模型在同理心表达上的突破?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-25 10:32:32 714

原创 LLM大模型:如何让AI在复杂问题中展现出色的链式思考推理能力?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-24 14:30:00 959

原创 AI大模型检索升级:它是如何让信息搜索更高效的?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-23 10:36:38 724

原创 2024深度洞察「全球 10 大顶尖大模型团队」,167 位华人榜上有名

事实上,**除了优质的数据、充足的算力和高效的算法,断档式的技术、工程人才储备,也是 OpenAI 能够在大模型领域做到始终遥遥领先的资本。**古语有云,得人才者得天下,这句凝聚着先人智慧的话语,不无道理。在未来的某一个时间,人们憧憬的通用人工智能(AGI)、超级智能(Super Intelligence),也将由大模型人才借助更好的数据、算法、算力和知识来实现。

2024-04-22 12:57:38 870

原创 大语言模型发展前景:如何克服规范与安全难题?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-19 11:25:24 892

原创 揭秘LLM大模型训练:人工智能的下一个突破口?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-18 10:30:49 800

原创 实时追踪科研动态|人类 vs AI:谁才是预测界的No.1?最新研究给你答案!

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-17 10:17:24 858

原创 当大型语言模型遇上信息检索评估:是颠覆还是革新?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-16 13:23:29 761

原创 大型语言模型在社交技能培训中的角色:是助手还是导师?

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2024-04-12 15:00:00 823

原创 LLM前沿动态抢先看:如何提升大型语言模型的推理能力?

在受到人类反馈的强化学习(RLHF)成功启发下,作者研究了多种从反馈中学习的算法(包括专家迭代、近端策略优化(PPO)和基于回报的强化学习),以改进语言模型的推理能力。文中研究了模型在稀疏和密集奖励下,如何通过启发式方法和通过学习得到的奖励模型进行学习。此外,研究还从不同大小的模型和初始化开始,包括有监督的微调(SFT)数据和没有SFT数据的情况。

2024-04-11 13:42:05 872

原创 AI 2000 17位学者入选2024 IEEE Fellow,其中14位华人学者

订阅即可获取他们的最新论文!

2023-11-28 14:04:15 1274

原创 大模型周报丨代码语言模型和模型即服务两篇综述,涵盖50+模型、30+评估任务和500+篇相关论文

我们的定量分析表明,我们的方法在提示对齐和身份一致性之间取得了更好的平衡,相较于基线方法,这些发现得到了用户研究的加强。此外,文章还讨论了代码特定的特征,如AST、CFG和单元测试,以及它们在代码语言模型训练中的应用,并指出了该领域的主要挑战和潜在的未来发展方向。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

2023-11-27 09:56:31 1097

原创 NeurIPS2023丨Generative Model 相关工作最新进展

NeurIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。作为目前全球最负盛名的人工智能盛会之一,NeurIPS 在每年年末都是计算机科学领域瞩目的焦点。被 NeurIPS 接收的论文,代表着当今神经科学和人工智能研究的最高水平。

2023-11-27 09:45:56 1063

原创 ICLR2024丨Simulation在ICLR-2024全线溃败?18篇Simualtion & Agent相关论文合集

笔者(知乎:兽族机枪兵)所在的研究组最近也在火热地搞Agent中,同时笔者自己也有在搞Simulation。所以将最近投稿ICLR的一些Agent相关论文(尤其是Simulation)的投稿意见进行了汇总。原文链接:https://zhuanlan.zhihu.com/p/666816570ICLR,全程为国际表征学习大会(International Conference on Learning Representations)是深度学习领域的顶级会议。ICLR24 虽还未审完搞,但是是 Openre

2023-11-27 09:36:04 1227

原创 NeurIPS2023丨大模型最新研究进展

追踪最新科研动态!

2023-11-27 09:05:42 1145 1

原创 实时追踪科研动态|字节、南开提出在线方式为基于大模型的角色生成拟人化个性,11.14精选新论文

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain2023年11月14日精选新论文列表:1.Q-Instr

2023-11-15 11:34:17 280

原创 大模型周报丨大模型评估中存在什么问题?中科大等提出Ziya2

本报告从两个方面扩展了LCMs的潜力:首先,通过将LoRa蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的稳定扩散模型,我们扩大了LCM的应用范围,使得模型具有更少的内存消耗,实现了更优秀的图像生成质量。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

2023-11-14 14:47:34 186

原创 实时追踪科研动态|具备记忆增强多模态语言模型的开放世界多任务智能体-JARVIS-1,11.13精选新论文

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain2023年11月13日精选新论文列表:1.Instant

2023-11-14 13:44:10 208

原创 ICLR‘24 大语言模型智能体最新研究进展丨智能体评测篇

在大语言模型驱动下的自主智能体方面,作者所在团队发布了该领域的早期综述(见A Survey on LLM-based Autonomous Agents),并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent(见RUC-GSAI/YuLan-Rec),欢迎大家关注。本文汇总了在ICLR’24提交的论文中,基于大语言模型的智能体相关的全部论文,并进行了分类汇总,共计98篇。本文提出了一种新的基于动态交互的LLM评测框架DynaEval,用于评测LLM在动态现实场景中的能力。

2023-11-13 11:37:36 559

原创 实时追踪科研动态|学习使用工具创建多模态代理,11.10精选新论文

本报告从两个方面扩展了LCMs的潜力:首先,通过将LoRa蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的稳定扩散模型,我们扩大了LCM的应用范围,使得模型具有更少的内存消耗,实现了更优秀的图像生成质量。论文介绍了一种名为"Prompt Cache"的方法,用于加速大型语言模型(LLM)的推理过程,通过在不同的LLM提示之间重用注意力状态。2)医学 LLMs 的下游表现如何?LLaVA-Plus维护一个预训练的视觉和视觉语言模型的技能库,并根据用户的输入激活相关的工具来完成实际任务。

2023-11-13 10:45:03 141

原创 实时追踪科研动态丨首个像素级接地大型多模态模型,11.7精选论文

之前的研究使用整体图像和文本提示来生成无grounded的文本响应,而最近的研究使用区域级LMM来生成视觉grounded的响应,但它们仅能一次指明一个对象类别,需要用户指定输入中的区域,或者无法提供密集的像素级对象grounding。他们讨论了未来基准的具有挑战性的要求,这些基准能定量衡量AGI模型的行为和能力与这些等级的对比。在大规模语言模型上的实验结果表明,Relax在各种平台上提供的性能与最先进的手动优化系统相当,并使新兴的动态模型能够部署到更广泛的环境中,包括手机、嵌入式设备和Web浏览器。

2023-11-09 13:39:54 186

原创 中国大陆发第一篇AI顶会的人都怎么样了?

纵观ACL大会的历史,由于中国的自然语言处理与计算语言学与世界接轨较晚,再加上中国第一批自然语言处理研究者更看重另一个会议COLING,早期对ACL大会的关注不够,直到1998年才由清华大学黄昌宁教授课题组发表了第一批的两篇ACL文章,其中黄昌宁和赵军合作的A Quasi-Dependency Model for Structural Analysis of Chinese BaseNPs成为这届ACL大会的两篇特邀论文之一,在所有大会论文中这篇排在第一。然而,在近似B&B算法中,它们却频繁出现。

2023-11-09 10:29:09 140

原创 10月热门论文丨ChatGPT参数200亿?微软多次撤稿

科研圈也“吃瓜”!最近关于ChatGPT参数只有200亿的事情在各大社区、社群引起讨论。问题源于微软发布的一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文,在做对比的时候透露出了重要信息:ChatGPT 是“只有”20B(200 亿)参数的模型。后续微软撤稿两次,并表示文章中对 ChatGPT 参数数量的猜测来自于一篇博客,作者们并未了解或者验证ChatGPT的参数,直接用了博客的内容,这才带来了公众的误导。这篇

2023-11-07 14:22:22 244

原创 ICLR‘24 大语言模型智能体最新研究进展丨智能体应用篇

在大语言模型驱动下的自主智能体方面,作者所在团队发布了该领域的早期综述(见A Survey on LLM-based Autonomous Agents),并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent(见RUC-GSAI/YuLan-Rec),欢迎大家关注。本文探讨了GPT-4的学习知识在不完全信息博弈中的适用性,并提出了suspicion-agent,它基于GPT-4实现了不完全信息博弈智能体。本文提出了WebAgent,通过学习自身经验,按照自然语言指令在真实网站上完成任务。

2023-11-07 14:02:07 341

原创 ICLR‘24 大语言模型智能体最新研究进展丨多智能体篇

在大语言模型驱动下的自主智能体方面,作者所在团队发布了该领域的早期综述(见A Survey on LLM-based Autonomous Agents),并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent(见RUC-GSAI/YuLan-Rec),欢迎大家关注。目前多智能体的方法大多让智能体在静态框架交互来实现协作,这很依赖先验知识且缺少泛化性,本文提出构造一个策略性的智能体团队方法DyLAN,使多个智能体在基于任务的动态框架中进行交互。

2023-11-06 11:48:46 463

原创 初探获得诺奖的“捷径”

376位诺奖获得者之间的合作关系共形成了1260对合作者对,通过学科的分布我们发现有687对合作者均来自同一个学科,即54.5%的合作关系获得的都是同一学科奖项,还有45.5%合作者获得不同学科的奖项。上述分析提到54.5%的合作者来自同一学科,通过分析这些合作者,我们发现生理学与医学的内部合作得奖的比例更高,这可能与生理学与医学本身有关系,与同学科的合作会更密切一些,与其他学科合作有一些壁垒。为了一探究竟,小编从诺奖的合作圈入手,挖一挖历史上所有的诺奖获得者有什么共同的特点,有没有隐藏的联系。

2023-11-05 00:14:35 114

原创 大模型周报丨Auto-Instruct下一个大模型开卷台阶?DALL-E 3论文公布等重磅工作来袭

实验结果表明,"上下文预训练"能够简单且大规模地显著提高 LM 的性能,在需要更复杂上下文推理的任务中(包括上下文学习、阅读理解、对先前上下文的忠实度、长上下文推理和检索增强),都取得了明显的改进(+8%、+15%、+16%、+5%、+9%)。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。和从训练集计算出的单个“任务向量”的变压器LLM。

2023-11-01 15:52:38 202

原创 实时追踪科研动态丨微软发布代码生成的预训练扩散模型,10.30精选新论文

实验结果表明,在使用 H100 GPU 平台的 GPT-175B 模型训练中,所提出的 FP8 混合精度训练框架不仅实现了显著的 42% 实际内存使用减少,而且比广泛采用的 BF16 框架(即 Megatron-LM)运行快 64%,超过 Nvidia Transformer Engine 17%。该框架利用了最先进的LLM(如GPT-4)的能力,并建立在现有的技术和社会学技术专长之上,用于自动测量大型语言模型可能产生的危害。作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。

2023-10-31 12:02:36 194

原创 ICLR‘24 大语言模型智能体最新研究进展丨智能体能力篇

在大语言模型驱动下的自主智能体方面,作者所在团队发布了该领域的早期综述(见A Survey on LLM-based Autonomous Agents),并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent(见RUC-GSAI/YuLan-Rec),欢迎大家关注。本文研究了对复杂运筹学问题的建模和编程,首次提出了基于LLM的解决方案,它是一个多智能体协作增强推理的框架,即Chain-of-Expers(CoE),以减轻对领域专家的严重依赖。

2023-10-30 13:36:32 465

原创 神经符号AI,“神经+符号”方式探讨AI未来

在本文中,我们提出了概念相关性传播(CRP)方法,该方法结合了 XAI 的局部和全局视角,从而允许回答关于单个预测的“在哪里”和“是什么”的问题,而无需施加额外约束。我们在各种设置中展示了我们方法的能力,表明概念相关性传播和相关性最大化导致更易理解的解释,并为了解模型表示和推理提供了深入的洞察力,通过概念图谱、概念组合分析和概念子空间及其在细粒度决策中的作用的数量调查。在这篇论文中,我们提出了基于概念的解释的原则和需求,它超越了每个样本的特征,识别出整个数据集中适用的高级人类可理解的概念。

2023-10-25 15:41:01 291

原创 实时追踪科研动态丨MetaAI新方法改善LLMs在多语言生成和评估任务中的表现,10.24精选新论文

值得注意的是,作者发现像 Stable-Diffusion 这样的公共文本到图像模型中的 CLIP 文本编码器在不同的视觉属性之间只包含一个因果状态,这是与属性描述中的最后一个主体标记对应的第一层自注意力层。作者探索了各种提示策略,并在一系列常见的放射学任务中评估了 GPT-4 的表现,发现 GPT-4 要么超过了当前的 SOTA 放射学模型,要么与它们的表现相当。对于需要学习特定于数据集的风格或模式的任务(例如,发现总结),GPT-4 可以通过基于示例的提示进行改进,并与有监督的 SOTA 相匹配。

2023-10-25 15:34:46 97

原创 实时追踪科研动态丨小模型自我改进,数学和推理效果高达 7.13%,10.23精选新论文

在本文中,作者提出了一种名为 AutoMix 的方法,该方法根据小型语言模型的输出正确性,策略性地将查询路由到更大的语言模型。然而,对于较小的模型来说,这种能力是缺失的,并且难以学习,从而加大了最先进的 LLM 与更实惠、更快速模型之间的性能差距。实验结果表明,该方法在多个自然语言处理任务上都能提高小型模型的性能,相较于基线方法,其性能有显著提升:与 ZeroGen 相比提升了 9.48%,与 GoldGen 相比提升了 2.73%,与在人类标注数据上训练的小型模型相比,最多提升了 15.17%。

2023-10-25 15:30:23 170

原创 大模型周报丨Table-GPT、3D-GPT、AgentTuning等新工作重磅来袭

作者展示了他们的 Table-GPT 模型在广泛的表格任务中表现出更好的表格理解能力,包括超出训练任务范围的未见任务,并且具有强大的泛化能力,能够以类似于 GPT-3.5 和 ChatGPT 的方式响应各种人类指令来执行新的表格任务。然而,目前还没有关于这类工作的明确定义和系统分析。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

2023-10-24 14:57:27 264

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除