智源社区-CSDN博客

原创 2024北京智源大会开启注册！

欢迎注册2024智源大会，6月14-15日召开，官网2024.baai.ac.cn北京智源大会是人工智能领域综合性内行盛会，自2019年10月首度亮相，已成功举办五届。大会以鲜明的特色，邀请海内外研究者开展精彩演讲与深入对话，共有11位图灵奖得主曾参与大会，每年有200位顶尖专家出席，来自30多个国家和地区的50万观众汇聚一堂，分享研究成果、探寻前沿知识、交流实践经验、建立紧密合作。大会特色全...

2024-05-23 13:00:23 165

转载产品更新：新增AI热门项目榜单，活动与论文、讲者深度关联

Hi～各位智源社区用户欢迎阅读我们的社区产品迭代总结。过去半年，我们的团队一直在不断地进行产品优化和更新，以更好地满足用户的需求和期望，希望大家多给建议，多提需求????1、AI热门项目体验地址：https://hub.baai.ac.cn/projects榜单：Github每天有超过40个AI topics在不断更新，智源社区推出“热点项目”功能，整理AI各主题讨论度最高的项目，迅速定位最新热点专注...

2024-05-23 13:00:23

转载 5月17日｜压缩=智能？比特编码数量能否决定智能水平，30个模型和12项基准研究，大模型的压缩能力与智能...

报告主题：大语言模型的压缩与智能报告日期：5月17日（周五）10:30-11:30报告要点：在这项工作中，我们探讨了大型语言模型（LLMs）的智能与其压缩能力之间的关系。传统观点认为，有效的数据压缩能力是智能的一个重要标志，甚至两者是等价的。我们通过实验研究来探讨语言模型中智能和压缩能力之间的关系，回答一个关键的问题：如果一个语言模型相比于另一个模型能够以无损的方式用更少的比特编码一个文本语料库，...

2024-05-16 12:12:28 12

原创多模态大模型新进展——GPT-4o、Project Astra关键技术丨青源Workshop第27期

青源Workshop丨No.27多模态大模型新进展—GPT-4o、Project Astra关键技术主题闭门研讨会刚刚过去的两天，OpenAI、Google纷纷发布了多模态大模型的最新成果，GPT-4o、Project Astra先后亮相。本周五（北京时间5月17日）18点，智源社区将组织「青源Workshop：多模态大模型新进展——GPT-4o、Project Astra关键技术」小范围闭门研讨...

2024-05-16 12:12:28 206

转载 5月15日｜智能体的自动化评估与优化，Agent-Eval-Refine

报告主题：智能体Agent的自动化评估与优化报告日期：5月15日（周三）10:30-11:30报告要点：智能体正在快速发展，然而其性能评估方法仍然较为原始——大量依赖人工标注，且难以准确反映其在现实应用中的性能。因此，我们需要开发出更具可扩展性、并能真实反映智能体性能的评估工具。在这份工作里，我们展示了利用多模态语言模型(VLM)评估智能体性能的可行性及其相对传统方法的优点。基于此方法，我们进一步...

2024-04-30 12:30:28 39

转载 5月9日｜探究线性表示在大语言模型中的起源

报告主题：探究线性表示在大语言模型中的起源报告日期：5月9日（周四）10:30-11:30报告要点：大语言模型的成功很大程度上归结于它能有效的把海量信息压缩在模型的向量空间中。这项工作研究了这个基础问题: 大语言模型是如何表示高级语义概念的. 以往的研究发现高级语义概念通常在大语言模型的表示空间中被“线性”编码。是什么原因导致了这一现象呢? 在这项工作中，我们研究了这种线性表示的起源。我们发现这和...

2024-04-30 12:30:28 21

转载提前报名｜Google DeepMind下一代图像检索模型MagicLens

报告主题：Google DeepMind下一代图像检索模型MagicLens报告日期：5月8日（周二）10:30-11:30报告要点：我们认为近20年来的图像检索问题(图像->图像)定义并不明确：用户上传图片搜索的时候被迫只能有一个搜索意图"找到一样的图片"。事实上用户可能对于一张图片有不同的搜索意图：比如，这个景点周围的景点，这个建筑内部长什么样？因此，相比于传统的仅根据图片本身的相似度检...

2024-04-30 12:30:28 36

转载活动报名｜无Token适应，自回归地在字节序列上进行训练，热门工作

报告主题：MambaByte：无Token适应，自回归地在字节序列上进行训练报告日期：4月19日（周五）10:30-11:30主题简介：无Token的语言模型直接从原始字节学习，并消除了子词Tokenization的归纳偏见。然而，基于字节的操作导致序列长度显著增加。在这种情况下，标准的自回归Transformers的扩展性不佳，因为所需的有效内存随着序列长度的增加而增长。最近开发的Mamba s...

2024-04-18 13:06:30 57

转载活动报名｜提升显著，LoRA驱动的个性化图像生成，韩家炜教授指导

报告主题：LoRA驱动的个性化图像生成报告日期：4月24日（周三）10:30-11:30主题简介：在文本到图像的生成过程中，低秩适应技术（LoRA）得到了广泛的应用。其主要用途在于精确地呈现特定元素，比如具体的人物或是独特的图片风格。然而，随着需要结合的 LoRA 数量的增加，现有的方法在组合多个 LoRA 时面临挑战，从而限制了复杂图像的创作。本文从解码过程的核心角度出发，探讨了多 LoRA 组...

2024-04-18 13:06:30 59

转载活动报名｜大模型Agent操作系统，支持多Agent并行，实现有“灵魂”的管理，罗格斯大学教授分享...

报告主题：AIOS，大模型智能体操作系统报告日期：4月23日（周二）10:30-11:30主题简介：随着大模型智能体的不断发展，智能体的集成、部署和管理存在着一系列的挑战，包括对智能体请求的调度和资源分配，智能体上下文的中断、存储、管理与恢复，以及整合各种高度专业化的异构智能体所固有的复杂性。智能体数量和复杂性的迅速增加则进一步加剧了这些问题，通常导致大模型资源无法被有效利用。基于这些挑战，本报告...

2024-04-18 13:06:30 66

转载活动报名｜无需训练，将任何图像编辑技术带入视频编辑的新框架

报告主题：无需训练，将任何图像编辑技术带入视频编辑领域的新框架报告日期：4月25日（周四）10:30-11:30主题简介：视频到视频编辑涉及编辑源视频并结合额外控制（如文本提示、主题或风格）生成一部与源视频和所提供控制对齐的新视频。传统方法被限制在特定的编辑类型上，限制了它们满足广泛用户需求的能力。在本文中，我们介绍了AnyV2V，一种新颖的无需训练的框架，旨在将视频编辑简化为两个主要步骤：（1）...

2024-04-18 13:06:30 55

转载活动报名｜基于followerGPT和离线强化学习的AI伴舞，为人生成舞伴

报告主题：Duolando，基于followerGPT和离线强化学习的AI伴舞报告日期：4月18日（周四）14:30-15:30主题简介：我们在3D舞蹈生成领域内引入了一个新的任务：AI伴舞，即，在背景音乐下为人类领舞者生成一个舞伴。与现有的单人或团体舞蹈生成任务不同，双人舞蹈场景需要两位参与者之间更高度的互动，要求在姿势和位置上进行精细的协调。为了这一任务，我们首先通过记录近两小时的专业舞者表演...

2024-04-18 13:06:30 53

原创 Yoshua Bengio独家专访：我不想把大模型未来押注在Scaling Law上，AGI路上要“注意安全”...

导读漫长的30年间，数度从主流方向的超然出走，是Bengio的制胜秘诀。这种不盲从主流的风格体现在他研究生涯的方方面面。90年代末期，神经网络被打入冷宫，Bengio的论文多次遭拒，连学生们也开始担心，和他一起研究神经网络会导致毕业后找不到工作。“那场有关神经网络的文化沙漠可能‘劝退’了很多研究者，但我有点固执，坚信我们应该坚持下去。”而时过境迁，如今神经网络早已成为主流，审稿人的看法也发生了翻天...

2024-04-17 12:01:23 1179

转载活动报名｜ICLR 2024，无需训练，Fast-DetectGPT让检测速度提升340倍，准确率提升 75%...

报告主题：Fast-DetectGPT高效零样本机器生成文本检测报告日期：4月9日（周二）14:30-15:30主题简介：大语言模型如ChatGPT和GPT-4在各个领域对人们的生产和生活带来便利，但其误用也引发了关于虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法——Fast-DetectGPT，无需训练，直接使用开源小语言模型检测各种大语言模型生成的文本内容。Fast-...

2024-04-07 15:01:19 83

转载活动报名｜大模型时代数据的价值与隐私保护

报告主题：大模型时代数据的价值与隐私保护报告日期：3月28日（周四）10:30-11:30主题简介：在大模型的时代，数据的重要性前所未有地凸显出来。本次讲座将关注数据与大模型交互时的两个问题：隐私问题和数据价值评估。具体来说，将分享关于具有差分隐私保证的大模型学习的最新进展，相关技术和理论创新使得我们能够首次成功隐私微调超大模型如GPT-3（175B）。除了关注隐私问题，数据所有者还可能希望公平地...

2024-03-26 11:01:38 77

转载张宏江：大模型技术发展的八点观察

继ChatGPT之后，Sora模型的出现再次激发了各行各业对AI的热情。面对术语的日新月异，个人和企业应用的纷繁涌现，以及商业模式的持续重构，大模型能够展现出惊人的能力并迅速影响社会，这背后有着更深刻的原因。在近日举办的“亚布力中国企业家论坛年会”上，智源研究院学术顾问委员会主任张宏江发表了闭幕式演讲，分享了他对大模型技术发展的八点观察。第一，大模型取得突破的核心是Scaling Law2017年...

2024-03-06 14:43:21 117

原创让模型畅所欲言不再Say No丨专访Dolphin开源模型作者Eric Hartford

导读“对不起，作为语言模型，我无法帮助你。”这是一段模型发出的常见回答，也是Eric Hartford 最初想要训练一个未经审查模型（uncensored model）的灵感来源。通过删除数据集中包含“对不起”“作为一个大语言模型”等词的交互案例，他尝试训练模型不要再拒绝回答。Eric认为模型创建者不应将个人价值观内嵌于AI引擎之中，“在模型部署为应用程序之前，正确的做法是将其构建为不可知论，不关...

2024-02-23 15:01:52 969

转载智源社区2024 AI科研趋势调研开启！参与有礼

智源社区诚挚邀请您参与“2024 AI科研趋势调研”。我们期待社区成员，以及AI领域的专业人士，对AI技术、产品、安全等关键领域的未来趋势和重要问题发表专业见解。问卷填写时间约5分钟，调研结束后，智源社区将联合腾讯科技，为您带来对调研的深度解读。‍‍‍‍本次调研得到了南京航空航天大学李丕绩、零一万物黄文灏、智源研究院杨熙、复旦大学桂韬等技术专家的支持和建议。请您扫描下方二维码，或者点击阅读原文参与...

2024-01-29 10:19:02 101

转载活动报名｜NPHardEval：动态评估大模型推理能力

报告主题：NPHardEval：一个通过计算复杂性评估大型语言模型推理能力的动态基准报告日期：1月30日（周二）10：30-11：30主题简介：推理能力是当前LLM最重要的特征之一，它也在复杂决策任务中扮演了不可或缺的角色。因此，研究LLM的推理能力至关重要。然而，现有的基准在对LLM的推理能力进行严格评估方面是不充分的。它们也容易过拟合，因为这些公开且静态的基准允许模型可能针对特定基准指标调整...

2024-01-25 10:00:49 107

转载活动报名｜大模型的推理能力究竟由什么决定

报告主题：大模型的推理能力究竟由什么决定报告日期：1月31日（周三）09：30-10：30主题简介：大模型的推理性能究竟由什么决定？以后的研究者如何设计思维链技术才能让大模型推理性能更好的提升？思想链（CoT）对于提高大型语言模型（LLM）的推理能力具有重要意义。然而，CoT 的有效性与提示中推理步骤的长度之间的相关性仍然很大程度上未知。为了阐明这一点，多家研究机构（西北大学、罗格斯大学、利物浦...

2024-01-25 10:00:49 124

原创 600万播放课程导师Jeremy：训练模型是门手艺，实践出真知丨智源专访

导读近日，智源社区对明星AI教育家、原Kaggle总裁兼首席科学家、fast.ai创始人Jeremy Howard进行专访。本次专访围绕技术普惠、开源与闭源之争、中美差距、AI人才培养等核心议题展开。fast.ai是a16z首批支持的开源项目之一，该课程（https://course.fast.ai）目前已达到600万播放量，谷歌研究总监Peter Norvig曾力荐，“‘深度学习人人可学’是很多...

2024-01-25 10:00:49 564

转载活动报名：4天达5.9k星多榜单第一，Yann LeCun转发，腾讯开源PhotoMaker，一作李震分享...

报告主题：PhotoMaker，一种高效个性化定制人像照片的文生图模型报告日期：1月22日（本周一） 14:30直播腾讯PhotoMaker是一种高效个性化定制人像照片的文生图模型，发布4天已达5.9k星，Yann LeCun转发「左下角这幅文艺复兴时期的画，是我的最爱」。该工作现已开源，论文一作李震将在1月22日下午14:30在智源社区进行分享，欢迎报名参与讨论。主题简介：在研究界还是企业界主流...

2024-01-22 11:45:30 109

转载活动报名｜AutoAct：探索可自主分化的大模型智能体，浙江大学副教授张宁豫，周五直播...

报告主题：AutoAct：探索可自主分化的大模型智能体报告日期：01月12日（周五） 14:30-15:30主题简介：大模型智能体在人工智能领域已展现出巨大的潜力和强大的能力。目前大多数大模型智能体工作都基于闭源大模型如 ChatGPT 或 GPT-4，而基于开源大模型的智能体大多也需要依靠ChatGPT或GPT-4生成的交互轨迹数据来进微调。本次报告将介绍一种基于自规划（Self-Plan）的智...

2024-01-10 16:06:03 169

转载活动报名｜音频AIGC开源平台，音频生成开源工具包Amphion的歌声转换指南

报告主题：音频生成开源工具包Amphion的歌声转换指南报告日期：01月16日 14:30-15:30主题简介：Amphion是一个集成了语音合成转换、歌声合成转换、音效音乐生成等多功能为一体的音频AIGC开源平台（https://github.com/open-mmlab/Amphion）。在本次报告中，我们将针对于歌声转换（Singing Voice Conversion），介绍该任务的定义、...

2024-01-10 16:06:03 114

转载活动报名｜发挥卓越性能，Diffusion Model扩散模型的可重复性与一致性

报告主题：扩散模型的可重复性与一致性‍报告日期：1月12日（周五）10:30-11:30主题简介：扩散模型作为一种强大的生成模型，在众多应用领域如图像生成、逆向问题解决及文本至图像转换中展现出卓越性能。这些模型通过逆向扩散过程，将随机噪声输入转换成新的数据内容（例如图像）。在本研究中，我们发现了扩散模型相较于大多数其他生成模型所呈现的独特现象，我们称之为“一致性与可重复性”。更具体地，我们的大量实...

2024-01-02 13:21:22 96

转载活动报名｜AGI之路，实现模态大一统的NExT-GPT，轻量级对齐网络，模态切换的指令微调...

报告主题：AGI之路：实现模态大一统的NExT-GPT报告日期：1月5日（周五）14:30-15:30主题简介：近来，多模态大语言模型已经取得了令人振奋的成果。然而，现有多模态大语言模型仍主要集中在对输入端进行多模态理解，而输出端仍受限于文本内容。相较之下，人类在沟通时具备理解和感知各种模态的能力，并能够以灵活的方式输出各类模态的回复。因此，构建能够接受和传递任何模态内容的系统，是实现类人水平的人...

2024-01-02 13:21:22 113

转载活动报名丨大语言模型能否成为博弈论中的理性玩家？系统性的分析

报告题目：大语言模型能否成为博弈论中的理性玩家？一个系统性的分析报告日期：2024年1月3日（周三）14:30-15:30主题简介：博弈论作为一种分析工具，在社会科学研究中经常被用来分析人类行为。由于大语言模型（LLMs）的行为与人类高度一致，一个有前景的研究方向是在博弈实验中使用LLMs来替代人类，从而促进社会科学领域的研究。然而，尽管对大型语言模型与博弈论的结合进行了大量实证研究，大型语言模型...

2024-01-02 13:21:22 113

转载活动报名｜大模型玩手机？腾讯开源AppAgent，多模态大模型作为智能体的研究与探索...

报告主题：AppAgent，多模态大模型作为智能体的研究与探索报告日期：1月9日（周二）14:30-15:30主题简介：如果将语言大模型比喻成一个能思考能交流的大脑，多模态语言大模型则是给大脑赋予了眼睛，让它能够像人一样看到世界。本次报告我将介绍团队在多模态大模型方向的努力与尝试。包括如何更高效的构建图文大模型训练数据集以及图文大模型的应用。在此次报告中，我将介绍我们团队近期在多模态语言模型方面的...

2024-01-02 13:21:22 202

转载活动报名：斯坦福&谷歌，视频生成框架WonderJourney，吴佳俊学生俞洪兴分享

报告主题：WonderJourney，创造属于你的开放式三维世界报告日期：12月28日（周四）11:00-12:00主题简介：你是否也曾好奇《爱丽丝梦游仙境》中的种种奇幻经历，但却难以仅从文字或插图中想象？在这次演讲中，我将介绍我们近期的工作，“WonderJourney”。从一张图片或一段文字出发，WonderJourney能合成一系列多样且自然连接的3D场景，让用户能够看到一个独特的“Wond...

2023-12-22 16:45:24 149

转载活动报名：基于梯度下降的神经网络学习中的不变低维子空间

报告主题：基于梯度下降的神经网络学习中的不变低维子空间报告日期：12月26日（周二）11:00-12:00主题简介：在过去的几年里，梯度下降对于简洁解的隐式偏向是在深度网络训练中广泛研究的现象。在这项工作中，我们首先将焦点缩小到深度线性网络并来研究这一现象。通过我们的分析，在数据具有低维结构时，我们的研究揭示了学习动态中的一个令人惊讶的“简洁法则”。具体而言，我们表明从正交初始化开始的梯度下降的演...

2023-12-22 16:45:24 77

转载活动报名：EMNLP 2023最佳长论文奖，以标签为锚，从信息流动的视角分析上下文学习...

报告主题：以标签为锚：从信息流动的视角分析上下文学习（EMNLP 2023最佳长论文奖）报告日期：12月26日（周二）14:30-15:30上下文学习是一种在大语言模型时代常用的小样本学习方法。它通过向大语言模型提供示例样本的方式，引导模型完成指定的任务。上下文学习无需参数更新，直观易用，非常契合大语言模型时代的需求。近来，已经有许多工作从不同角度分析了上下文学习。一些工作分析了上下文学习中示例的...

2023-12-22 16:45:24 77

转载活动报名｜“开源版Gemini”——Emu2多模态模型技术详解

根据少量演示和简单指令完成听、说、读、写、画等多模态任务是人类的基本能力。对于AI系统而言，如何利用多模态环境下的各种信息、实现少样本多模态理解与生成是有待攻克的「技术高地」。2023年12月21日，智源研究院开源发布新一代多模态基础模型Emu2，通过大规模自回归生成式多模态预训练，显著推动多模态上下文学习能力的突破。Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS...

2023-12-22 16:45:24 196

原创新工具｜每日论文300+，热点要点即刻get，让研究效率提升一个level

每天，AI领域有超过300篇崭新的论文发表，而这个数字还以每年超20%的速度在持续增长。假设看完一篇论文需要花费3分钟，通读所有论文将需要花费15个小时，即使最勤奋的研究者，废寝忘食也看不完这么多论文。智源社区今天推出“热点论文”功能，利用这一工具，你可以在半小时内找到最新研究的热点，帮助你把阅读论文的效率加速一个数量级。目前新工具有以下5个特色：全网热度榜单这是一张每日更新的热点论文地图，它筛选...

2023-12-21 15:23:59 402

原创 Michael Jordan：大模型在两个方向仍需“努力”丨智源专访

导读回望过去的这一年，大模型的出现永远改变了当前的技术产业格局，却鲜少有人说起大模型真正的致命缺点。“如果你问 ChatGPT，乌干达总统是谁？它会给出一个答案。但你问它对刚才说的话有多确定？它表示无法回答。”提及当前大语言模型最欠缺的是什么，美国三院院士、著名计算机科学家、智源研究院学术顾问委员会委员Michael I. Jordan在近期的智源专访中坦言，当前的大模型在两大前沿方向上仍需努力，...

2023-12-20 12:15:52 917

转载活动报名：LLaVA和LLaVA-Plus视觉指令微调及工具使用构建多模态智能体

报告主题：视觉指令微调及工具使用构建多模态智能体报告日期：12月20日（周三）10:30-11:30主题简介：1）Visual Instruction Tuning认识和理解视觉内容，以及基于人类指令对视觉世界进行推理，长久以来一直是一个具有挑战性问题。最近，得益于大规模预训练，OpenAI 的 GPT-4V 展示了在自然语言处理任务和复杂视觉理解中令人印象深刻的能力。在这次演讲中，我将介绍 LL...

2023-12-19 14:11:55 254 1

原创清华陈建宇：当人形机器人成为人类替身，是一场怎样的革命？丨智源独家

‍‍导读人形机器人是当前最炙手可热的方向之一。谈到人形机器人的最终局，清华交叉信息研究院助理教授、星动纪元创始人陈建宇说到，在未来人形机器人很可能成为人类的化身，代替人去完成各种各样纷繁复杂的任务。本科毕设阶段，他就开始研究双足机器人的步态规划。而在加州大学伯克利分校攻读博士期间，他的研究领域包括自动驾驶和机器人技术。当时尚处于商业无人驾驶行业的早期，大多数无人车的决策规划系统使用的是基于人为规则...

2023-12-18 12:01:06 1009

转载活动报名：WarAgent多智能体理解人类历史和预防未来国际冲突

报告主题：WarAgent 多智能体理解人类历史和预防未来国际冲突报告日期：12月19日（周二）11:00-12:00主题简介：我们能否避免历史十字路口上的战争？这个问题已经被个人、学者、政策制定者和组织在人类历史中追寻了很长时间。在这项研究中，我们尝试根据人工智能（AI）和大型语言模型（LLM）的最新进展来回答这个问题。本文试图通过使用人工智能和大型语言模型，回答人类历史上的战争问题：我们能否在...

2023-12-15 18:03:45 89

转载活动报名：复杂环境下控制机器人，揭秘GPT-4V在视觉和语言规划中的强大力量...

报告主题：揭秘GPT-4V在机器人视觉-语言规划中的强大力量报告日期：12月22日（周五）11:00-12:00主题简介：ViLa 全称是 Robotic Vision-Language Planning，它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力，把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解，而这是很多之前基于大语言模型（LL...

2023-12-15 18:03:45 104

转载活动报名：首个「创造式任务」基准，Creative Agents创造式任务和具有想象力的智能体...

报告主题：Creative Agents创造式任务和具有想象力的智能体报告日期：12月18日（周一）11:00-12:00主题简介：北京大学和清华大学等机构组成的团队提出了一类解决创造式任务的智能体——Creative Agents，并推出了首个创造式任务的测试基准。如何设计具有创造力的智能体，让它能够在现实世界中做各种开放式的复杂任务？这是我们迈向通用决策智能的重要一步。现有的很多工作构建了能够...

2023-12-15 18:03:45 51

转载活动报名｜马普脑研究所主任Moritz Helmstaedter：Connectomics连接组学

报告主题：Connectomics连接组学报告日期：12月08日（周五）15:30-16:30主题简介：大脑是由数百万至数十亿神经元组成的高度互联的网络。一个世纪以来，我们一直无法在突触分辨率上绘制这些连通性网络的图谱。只是最近，利用新型电子显微镜技术和基于人工智能的数据分析，才使得在更大规模上绘制神经网络图谱成为可能。这个新兴的连接组学领域仍然受到技术的限制，需要对PB级至EB级的数据集进行高效...

2023-12-07 17:38:26 66

空空如也

空空如也