• 博客(1217)
  • 收藏
  • 关注

原创 【一千个论文合集】计算机科学的26个细分领域近年必读论文集合

AMiner必读论文是一个可以帮您了解某个领域、机构、期刊、会议的学术专辑,包括必读论文和代表学者,由AI初筛+学者复核后提供给您,您可以收藏为自己的论文清单

2022-05-11 15:17:34 11911

原创 AI 2000 17位学者入选2024 IEEE Fellow,其中14位华人学者

订阅即可获取他们的最新论文!

2023-11-28 14:04:15 1065

原创 大模型周报丨代码语言模型和模型即服务两篇综述,涵盖50+模型、30+评估任务和500+篇相关论文

我们的定量分析表明,我们的方法在提示对齐和身份一致性之间取得了更好的平衡,相较于基线方法,这些发现得到了用户研究的加强。此外,文章还讨论了代码特定的特征,如AST、CFG和单元测试,以及它们在代码语言模型训练中的应用,并指出了该领域的主要挑战和潜在的未来发展方向。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

2023-11-27 09:56:31 1005

原创 NeurIPS2023丨Generative Model 相关工作最新进展

NeurIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是一个关于机器学习和计算神经科学的国际会议。作为目前全球最负盛名的人工智能盛会之一,NeurIPS 在每年年末都是计算机科学领域瞩目的焦点。被 NeurIPS 接收的论文,代表着当今神经科学和人工智能研究的最高水平。

2023-11-27 09:45:56 977

原创 ICLR2024丨Simulation在ICLR-2024全线溃败?18篇Simualtion & Agent相关论文合集

笔者(知乎:兽族机枪兵)所在的研究组最近也在火热地搞Agent中,同时笔者自己也有在搞Simulation。所以将最近投稿ICLR的一些Agent相关论文(尤其是Simulation)的投稿意见进行了汇总。原文链接:https://zhuanlan.zhihu.com/p/666816570ICLR,全程为国际表征学习大会(International Conference on Learning Representations)是深度学习领域的顶级会议。ICLR24 虽还未审完搞,但是是 Openre

2023-11-27 09:36:04 1080

原创 NeurIPS2023丨大模型最新研究进展

追踪最新科研动态!

2023-11-27 09:05:42 1002 1

原创 实时追踪科研动态|字节、南开提出在线方式为基于大模型的角色生成拟人化个性,11.14精选新论文

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain2023年11月14日精选新论文列表:1.Q-Instr

2023-11-15 11:34:17 108

原创 大模型周报丨大模型评估中存在什么问题?中科大等提出Ziya2

本报告从两个方面扩展了LCMs的潜力:首先,通过将LoRa蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的稳定扩散模型,我们扩大了LCM的应用范围,使得模型具有更少的内存消耗,实现了更优秀的图像生成质量。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

2023-11-14 14:47:34 120

原创 实时追踪科研动态|具备记忆增强多模态语言模型的开放世界多任务智能体-JARVIS-1,11.13精选新论文

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。AMiner AI,一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率,获取最新领域研究动态,让科研工作更加游刃有余。如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:https://www.aminer.cn/chat/g/explain2023年11月13日精选新论文列表:1.Instant

2023-11-14 13:44:10 112

原创 ICLR‘24 大语言模型智能体最新研究进展丨智能体评测篇

在大语言模型驱动下的自主智能体方面,作者所在团队发布了该领域的早期综述(见A Survey on LLM-based Autonomous Agents),并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent(见RUC-GSAI/YuLan-Rec),欢迎大家关注。本文汇总了在ICLR’24提交的论文中,基于大语言模型的智能体相关的全部论文,并进行了分类汇总,共计98篇。本文提出了一种新的基于动态交互的LLM评测框架DynaEval,用于评测LLM在动态现实场景中的能力。

2023-11-13 11:37:36 250

原创 实时追踪科研动态|学习使用工具创建多模态代理,11.10精选新论文

本报告从两个方面扩展了LCMs的潜力:首先,通过将LoRa蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的稳定扩散模型,我们扩大了LCM的应用范围,使得模型具有更少的内存消耗,实现了更优秀的图像生成质量。论文介绍了一种名为"Prompt Cache"的方法,用于加速大型语言模型(LLM)的推理过程,通过在不同的LLM提示之间重用注意力状态。2)医学 LLMs 的下游表现如何?LLaVA-Plus维护一个预训练的视觉和视觉语言模型的技能库,并根据用户的输入激活相关的工具来完成实际任务。

2023-11-13 10:45:03 82

原创 实时追踪科研动态丨首个像素级接地大型多模态模型,11.7精选论文

之前的研究使用整体图像和文本提示来生成无grounded的文本响应,而最近的研究使用区域级LMM来生成视觉grounded的响应,但它们仅能一次指明一个对象类别,需要用户指定输入中的区域,或者无法提供密集的像素级对象grounding。他们讨论了未来基准的具有挑战性的要求,这些基准能定量衡量AGI模型的行为和能力与这些等级的对比。在大规模语言模型上的实验结果表明,Relax在各种平台上提供的性能与最先进的手动优化系统相当,并使新兴的动态模型能够部署到更广泛的环境中,包括手机、嵌入式设备和Web浏览器。

2023-11-09 13:39:54 106

原创 中国大陆发第一篇AI顶会的人都怎么样了?

纵观ACL大会的历史,由于中国的自然语言处理与计算语言学与世界接轨较晚,再加上中国第一批自然语言处理研究者更看重另一个会议COLING,早期对ACL大会的关注不够,直到1998年才由清华大学黄昌宁教授课题组发表了第一批的两篇ACL文章,其中黄昌宁和赵军合作的A Quasi-Dependency Model for Structural Analysis of Chinese BaseNPs成为这届ACL大会的两篇特邀论文之一,在所有大会论文中这篇排在第一。然而,在近似B&B算法中,它们却频繁出现。

2023-11-09 10:29:09 76

原创 10月热门论文丨ChatGPT参数200亿?微软多次撤稿

科研圈也“吃瓜”!最近关于ChatGPT参数只有200亿的事情在各大社区、社群引起讨论。问题源于微软发布的一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文,在做对比的时候透露出了重要信息:ChatGPT 是“只有”20B(200 亿)参数的模型。后续微软撤稿两次,并表示文章中对 ChatGPT 参数数量的猜测来自于一篇博客,作者们并未了解或者验证ChatGPT的参数,直接用了博客的内容,这才带来了公众的误导。这篇

2023-11-07 14:22:22 172

原创 ICLR‘24 大语言模型智能体最新研究进展丨智能体应用篇

在大语言模型驱动下的自主智能体方面,作者所在团队发布了该领域的早期综述(见A Survey on LLM-based Autonomous Agents),并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent(见RUC-GSAI/YuLan-Rec),欢迎大家关注。本文探讨了GPT-4的学习知识在不完全信息博弈中的适用性,并提出了suspicion-agent,它基于GPT-4实现了不完全信息博弈智能体。本文提出了WebAgent,通过学习自身经验,按照自然语言指令在真实网站上完成任务。

2023-11-07 14:02:07 229

原创 ICLR‘24 大语言模型智能体最新研究进展丨多智能体篇

在大语言模型驱动下的自主智能体方面,作者所在团队发布了该领域的早期综述(见A Survey on LLM-based Autonomous Agents),并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent(见RUC-GSAI/YuLan-Rec),欢迎大家关注。目前多智能体的方法大多让智能体在静态框架交互来实现协作,这很依赖先验知识且缺少泛化性,本文提出构造一个策略性的智能体团队方法DyLAN,使多个智能体在基于任务的动态框架中进行交互。

2023-11-06 11:48:46 255

原创 初探获得诺奖的“捷径”

376位诺奖获得者之间的合作关系共形成了1260对合作者对,通过学科的分布我们发现有687对合作者均来自同一个学科,即54.5%的合作关系获得的都是同一学科奖项,还有45.5%合作者获得不同学科的奖项。上述分析提到54.5%的合作者来自同一学科,通过分析这些合作者,我们发现生理学与医学的内部合作得奖的比例更高,这可能与生理学与医学本身有关系,与同学科的合作会更密切一些,与其他学科合作有一些壁垒。为了一探究竟,小编从诺奖的合作圈入手,挖一挖历史上所有的诺奖获得者有什么共同的特点,有没有隐藏的联系。

2023-11-05 00:14:35 73

原创 大模型周报丨Auto-Instruct下一个大模型开卷台阶?DALL-E 3论文公布等重磅工作来袭

实验结果表明,"上下文预训练"能够简单且大规模地显著提高 LM 的性能,在需要更复杂上下文推理的任务中(包括上下文学习、阅读理解、对先前上下文的忠实度、长上下文推理和检索增强),都取得了明显的改进(+8%、+15%、+16%、+5%、+9%)。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。和从训练集计算出的单个“任务向量”的变压器LLM。

2023-11-01 15:52:38 124

原创 实时追踪科研动态丨微软发布代码生成的预训练扩散模型,10.30精选新论文

实验结果表明,在使用 H100 GPU 平台的 GPT-175B 模型训练中,所提出的 FP8 混合精度训练框架不仅实现了显著的 42% 实际内存使用减少,而且比广泛采用的 BF16 框架(即 Megatron-LM)运行快 64%,超过 Nvidia Transformer Engine 17%。该框架利用了最先进的LLM(如GPT-4)的能力,并建立在现有的技术和社会学技术专长之上,用于自动测量大型语言模型可能产生的危害。作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。

2023-10-31 12:02:36 116

原创 ICLR‘24 大语言模型智能体最新研究进展丨智能体能力篇

在大语言模型驱动下的自主智能体方面,作者所在团队发布了该领域的早期综述(见A Survey on LLM-based Autonomous Agents),并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent(见RUC-GSAI/YuLan-Rec),欢迎大家关注。本文研究了对复杂运筹学问题的建模和编程,首次提出了基于LLM的解决方案,它是一个多智能体协作增强推理的框架,即Chain-of-Expers(CoE),以减轻对领域专家的严重依赖。

2023-10-30 13:36:32 231

原创 神经符号AI,“神经+符号”方式探讨AI未来

在本文中,我们提出了概念相关性传播(CRP)方法,该方法结合了 XAI 的局部和全局视角,从而允许回答关于单个预测的“在哪里”和“是什么”的问题,而无需施加额外约束。我们在各种设置中展示了我们方法的能力,表明概念相关性传播和相关性最大化导致更易理解的解释,并为了解模型表示和推理提供了深入的洞察力,通过概念图谱、概念组合分析和概念子空间及其在细粒度决策中的作用的数量调查。在这篇论文中,我们提出了基于概念的解释的原则和需求,它超越了每个样本的特征,识别出整个数据集中适用的高级人类可理解的概念。

2023-10-25 15:41:01 125

原创 实时追踪科研动态丨MetaAI新方法改善LLMs在多语言生成和评估任务中的表现,10.24精选新论文

值得注意的是,作者发现像 Stable-Diffusion 这样的公共文本到图像模型中的 CLIP 文本编码器在不同的视觉属性之间只包含一个因果状态,这是与属性描述中的最后一个主体标记对应的第一层自注意力层。作者探索了各种提示策略,并在一系列常见的放射学任务中评估了 GPT-4 的表现,发现 GPT-4 要么超过了当前的 SOTA 放射学模型,要么与它们的表现相当。对于需要学习特定于数据集的风格或模式的任务(例如,发现总结),GPT-4 可以通过基于示例的提示进行改进,并与有监督的 SOTA 相匹配。

2023-10-25 15:34:46 67

原创 实时追踪科研动态丨小模型自我改进,数学和推理效果高达 7.13%,10.23精选新论文

在本文中,作者提出了一种名为 AutoMix 的方法,该方法根据小型语言模型的输出正确性,策略性地将查询路由到更大的语言模型。然而,对于较小的模型来说,这种能力是缺失的,并且难以学习,从而加大了最先进的 LLM 与更实惠、更快速模型之间的性能差距。实验结果表明,该方法在多个自然语言处理任务上都能提高小型模型的性能,相较于基线方法,其性能有显著提升:与 ZeroGen 相比提升了 9.48%,与 GoldGen 相比提升了 2.73%,与在人类标注数据上训练的小型模型相比,最多提升了 15.17%。

2023-10-25 15:30:23 89

原创 大模型周报丨Table-GPT、3D-GPT、AgentTuning等新工作重磅来袭

作者展示了他们的 Table-GPT 模型在广泛的表格任务中表现出更好的表格理解能力,包括超出训练任务范围的未见任务,并且具有强大的泛化能力,能够以类似于 GPT-3.5 和 ChatGPT 的方式响应各种人类指令来执行新的表格任务。然而,目前还没有关于这类工作的明确定义和系统分析。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

2023-10-24 14:57:27 193

原创 GNN周报重磅回归!来自北航、北邮、慕尼黑大学、CMU等机构前沿论文研究

图神经网络(GNN)是一类专门针对图结构数据的神经网络模型,在社交网络分析、知识图谱等领域中取得了不错的效果。近来,相关研究人员在GNN的可解释性、架构搜索、对比学习等方面做了很多探究。本周精选了10篇GNN领域的优秀论文,来自北航、北邮、慕尼黑大学、CMU等机构。这篇论文探讨了在大规模图上进行图表示学习的效果,但同时也关注了这种方法的成本和存储问题。目前,图压缩方法主要关注优化压缩图的特征矩阵,而忽视了原始图的结构信息。

2023-10-24 13:39:58 75

原创 实时追踪科研动态丨微软,Meta,DeepMind等机构10.18精选新论文

在这些见解的指导下,作者设计了一个微调配方,在 MATH 数据集上使用微调的 PaLM 2-L 模型实现了约 58.8% 的准确率,比预训练的 PaLM 2-L 模型使用多数投票的少量样本表现提高了 11.2%。实验结果表明,在使用 RTX 4090 GPU 时,该表示可以在 DNA-渲染数据集上以超过 400 FPS 的速度渲染 1080p 分辨率的图像,在 ENeRF-户外数据集上以 80 FPS 的速度渲染 4K 分辨率的图像,比以前的方法快 30 倍,同时实现了最先进的渲染质量。

2023-10-18 17:41:51 97

原创 大模型周报丨微软AutoGen揽10k star,清华新推视觉语言基础模型-CogVLM

通过使用密集的代码语料库进行细致的预训练和在文本和代码数据上进行指令微调,我们的模型在各种文本和编码基准测试的公开开源模型中实现了最先进的平均性能。然而,由于多种限制,用于大型模型训练的原始数据通常无法获得,因此,基于模型的端到端模型在下游任务中的应用已成为新的研究趋势。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

2023-10-18 16:56:12 181

原创 实时追踪科研动态丨微软、谷歌、MIT等机构10.16精选新论文

对于更复杂的任务,我们的反思代理与先前的最佳模型表现相当,尽管之前的方法可以访问专家轨迹或额外的屏幕信息。为了解决这个问题,作者提出了一种新的“表格调整”范式,通过使用从真实表格合成的各种表格任务作为训练数据,继续训练/微调像GPT-3.5和ChatGPT这样的语言模型,以增强它们理解表格和执行表格任务的能力。作者展示了他们的Table-GPT模型在广泛的表格任务上表现出更好的表格理解能力,并且在处理多样的人类指令进行新的表格任务时表现出了较强的泛化能力,类似于GPT-3.5和ChatGPT。

2023-10-17 16:05:53 65

原创 大模型周报丨微软发布GPT-4V报告,MiniGPT-5不仅续写还配图,内附AMiner AI综述

作者通过分析 Llama-2 家族模型学习到的三个空间数据集(世界、美国、纽约市地点)和三个时间数据集(历史人物、艺术品、新闻标题)的表示,发现 LLMs 在多个尺度上学习到了空间和时间的线性表示,这些表示对提示的变化具有较强的鲁棒性,并且在不同的实体类型(如城市和地标)之间是统一的。2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

2023-10-11 13:13:33 155

原创 9月热门论文丨语言建模即压缩,OpenAI DALL·E 3重磅升级

在AI领域,9月都发生了什么?在8月底,国内11家大模型通过备案审核,所以在9月初,各家大模型纷纷“亮剑”,百度,智谱AI等上线大模型产品。同时,在9月,发布了许多引人注目的研究论文,涵盖了各个子领域的最新进展。这些论文展示了研究人员在机器学习、自然语言处理、计算机视觉等方面的创新成果。让我们来一起回顾并分析一些备受关注的9月热门论文,探索其对AI领域的影响和意义。在本文中,我们将通过AMiner AI功能,一起探寻论文背后的核心思想和创新点,快速了解论文细节。让我们一同探索这个充满活力的领域!

2023-10-11 13:07:15 200

原创 ChatGPT的多模态历练之路!内附论文PDF

本文表明,通过增加语言模型的规模,可以提高任务无关的少量样本表现,有时甚至可以与之前的最先进的微调方法竞争。尽管 OpenAI 的预防措施较强,但未经监管的类似技术可能大规模在线激进化和招募,因此,在没有保护措施的情况下,成功且高效的武器化可能需要较少的实验即可实现。对于摘要生成任务,使用 60,000 个比较训练的模型会复制输入文本中的整个句子,并跳过无关的 preamble,这种做法获得了合理的 ROUGE 得分,并且被人类标记者认为表现非常好,但这可能是利用人类标记者依赖简单启发式这个事实的结果。

2023-10-09 13:20:32 106

原创 实时追踪科研动态丨微软、南洋理工、MetaAI等机构9.25精选新论文

在ImageNet-1K数据集上,我们的不同尺度的模型在只使用0.5G和1.0G FLOPs的情况下分别实现了75.4%和79.4%的准确率,而我们的1.0G FLOPs模型的表现优于使用全局tokens的LightViT-T模型0.7%。虽然最近一些利用大型语言模型(LLMs)的工具(如GitHub Copilot)可以成功地提供局部编码问题的高质量解决方案,但对于整个代码库的编辑任务,传统方法无法适用,因为代码库中的代码是相互依赖的,而整个代码库可能太大而无法适应输入。

2023-09-26 13:45:59 109

原创 大模型周报丨语言模型与压缩、多模态文学模型、Baichuan 2

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2023-09-26 11:01:25 150

原创 实时追踪科研动态丨MIT、北大、斯坦福等机构9.22精选新论文

本文提出了两个方法来加速语言模型的上下文扩展。在由单个8x A100机器上对LLaMA2 7B模型的上下文从4k扩展到100k,或对LLaMA2 70B模型的上下文从32k扩展到70B的情况下,LongLoRA仍然能够维持模型的原始架构,并且与大多数现有技术(如FlashAttention-2)兼容。这篇文章指出了在机器翻译任务中,具有适中模型大小(例如7B或13B参数)的生成式大语言模型(LLM)在性能上仍然落后于传统的监督编码-解码翻译模型,之前的研究尝试改进这些适中LLM的翻译能力,但收益有限。

2023-09-25 10:53:18 230

原创 实时追踪科研动态丨Meta AI、微软、清华大学等机构9.21精选新论文

此外,我们发现,相较于基线的上下文化RNN-T系统(在超过25倍的语音数据集上进行了训练),我们的方法在整体上提高了7.5%的WER,并在罕见单词上提高了17%的WER。文章介绍了大型语言模型中存在的一个不可忽视的问题——产生合理但错误的事实信息,即所谓的"幻觉"。作者们开发了一种名为Chain-of-Verification (CoVe)的方法,其中模型首先(i)起草初始回答,然后(ii)计划验证问题以核对其草稿,(iii)独立回答这些问题,以避免其他回答的偏见,最后(iv)生成最终的经过验证的回答。

2023-09-22 16:55:56 106

原创 实时追踪科研动态丨百川、谷歌DeepMind等机构9.20精选新论文

(ii)然后,我们介绍了最近在探索性、开放性研究领域取得的进展:旨在成为通用助手的多模态基础模型,包括三个主题——受大型语言模型启发的统一视觉模型、多模态语言模型的端到端训练以及与语言模型链式连接的多模态工具。作者还展示了大型语言模型的压缩能力,例如Chinchilla 70B在训练主要基于文本的情况下,将ImageNet图像压缩到其原始大小的43.4%,将LibriSpeech音频样本压缩到其原始大小的16.4%,超过了领域特定的压缩器PNG(58.5%)或FLAC(30.3%)的效果。

2023-09-22 16:39:52 111

原创 实时追踪科研动态丨微软、MetaAI、CMU大学等机构9.19精选新论文

因此,研究者提出了一种名为Sorted Fine-Tuning (SoFT) 的方法,通过排序微调的方式将大型语言模型转化为动态推断模型,无需预训练,并且在相同成本下仅替换标准的监督微调 (SFT)。因此,该研究解决了大型语言模型普及应用中的效率和成本问题。之前的研究都是使用参数规模为13B或更小的模型进行的,而本文通过将LLaVA模型扩展到33B和65B/70B规模,并对图像分辨率、数据混合和参数高效训练方法(如LoRA/QLoRA)进行实证研究,分享了在真实世界任务中的多模态和语言能力的发现。

2023-09-21 16:48:04 106

原创 ​一文读懂联邦学习(附完整报告下载)

在过去的一年里,AI 世界已经进入一个以大模型引领的新的发展阶段。人们在惊叹大模型的强大能力的同时,也在担忧其训练数据来源合规性、数据使用的偏见性等安全风险隐患。同样,在行业监管环境越来越规范化、信息安全与隐私数据越来越受重视的背景下,联邦学习研究和应用趋势也逐渐迈向可信联邦学习。《联邦学习全球研究与应用趋势报告》是一个追踪联邦学习领域动态和进展的非营利性项目。2023年度报告是本系列第三期,旨在更新展示联邦学习科研成果与技术应用的最新动态。

2023-09-20 11:24:34 106

原创 开源大模型论文盘点,内附PDF下载链接

大模型进入“安卓时代”,开源模型和闭源模型不断的出现,成为大模型领域两股并行的力量。开源大模型更是为AI领域带来了新的活力,基于开源大模型开发的行业生态应用甚至是新的模型不断出现。同时也为研究者和开发者提供了更广阔的创新空间,可以在有限资源和没有专有系统情况下试验这些开源模型。在国外,在ChatGPT发布后,Meta 发布了 Llama,在今年又发布了 开源可商用的Llama2,斯坦福大学微调 Llama 后发布的 Alpaca,1800亿参数的Falcon最近也宣布开源。在国内,清华大学联合智谱AI

2023-09-19 11:17:04 336

原创 实时追踪科研动态丨谷歌、马克斯·普朗克光科学研究所等机构精选新论文

研究者认为现有的方法受限于使用单一的建模方法,即为头部、脸部、头发和配饰使用相同的表示方法,而事实上这些部位具有不同的结构特征,需要使用不同的表示方法来更好地表现。有趣的是,他们发现在神经网络的较浅层中,网络可以识别简单的性质,而在较深的层中,它可以识别复杂的量子结构甚至量子纠缠。此外,该模型展现了出人意料的强大的代码推理能力,91%的时间生成可编译的代码,并且在70%的时间内完全模拟了编译器的输出。其中的主要挑战是缺乏用于生成组合概念的真实数据,这导致最终输出的质量降低,并且源主题的身份发生变化。

2023-09-18 12:00:13 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除