AI大模型日报#0528:Greg专访 | 为什么OpenAI最先做出GPT-4、xAI获60亿美元融资、李飞飞经典对话Hinton

本文链接：https://blog.csdn.net/lionkingcz/article/details/139277485

导读：AI大模型日报，爬虫+LLM自动生成，一文览尽每日AI大模型要点资讯！

目前采用“文心一言”（ERNIE 4.0）、“零一万物”（Yi-34B）生成了今日要点以及每条资讯的摘要。欢迎阅读！

《AI大模型日报》今日要点：今日科技资讯综述：科技界今日多篇重要资讯发布，首先是马斯克旗下的大模型平台xAI宣布获得60亿美元B轮融资，估值高达240亿美元，创下单笔融资记录。xAI的目标是实现AGI，并计划开发拥有10万块GPU的超级计算机，全面对标行业领军企业。同时，随着各大科技巨头纷纷推出智能助理项目和多模态模型，人工智能竞争已从模型转向应用，智能体时代正式到来。在模型发展方面，除了大型语言模型的持续进步，开源社区和专业领域也展示了强大的创新力。例如，通过functional token整合多个开源模型的新方法，以及针对特定任务优化的较小语言模型，都在特定领域实现了超越专有模型的性能。此外，清华大学推出的YOLOv10在实时目标检测领域取得突破，大幅提升了性能和效率。然而，AI智能体的炒作与现实之间的差距也引发关注。尽管大语言模型在性能上有所提升，但其综合能力仍不足以完全支撑AI智能体。这提醒了行业在追求技术进步的同时，也需脚踏实地，从AI增强功能做起。另一方面，国产开源项目也在不断涌现，如全面支持国产AI算力的Sora，以及来自厦门大学和腾讯优图的多模态思维链架构Cantor，都展示了国内在AI领域的创新实力。最后，在探讨AI成功的秘诀时，OpenAI联创Greg透露了研究与工程并重、团队组织方式等关键因素的重要性。同时，他也强调了AI安全问题的复杂性以及乐观态度在推动AI发展中的作用。总体而言，今日的科技资讯涵盖了融资、技术进步、应用落地、开源创新以及行业洞察等多个方面，全面展示了人工智能领域的最新动态和发展趋势。

标题: 官宣！马斯克的xAI获60亿美元融资，估值240亿美元

摘要: 科技巨头马斯克旗下的大模型平台xAI宣布获得60亿美元B轮融资，估值达到240亿美元。此次融资由多家知名投资机构领投，刷新了大模型赛道的单笔融资记录。xAI仅成立10个月便取得如此成就，得益于马斯克的影响力和大模型市场的持续增长。公司计划利用这笔资金进一步研发，并计划在未来几周内公布更多消息。业内猜测前OpenAI首席科学家Ilya Sutskever可能加盟xAI。马斯克表示，xAI的目标是实现AGI，并追求真理、理解宇宙的使命。他还宣布将与英伟达、甲骨文合作，开发一台拥有10万块GPU的超级计算机，以全面对标OpenAI和微软的“星际之门”。尽管面临来自图灵奖得主Yann LeCun的嘲讽，马斯克对xAI的未来表示乐观。
网址: 官宣！马斯克的xAI获60亿美元融资，估值240亿美元|微软|谷歌|特斯拉|埃隆_马斯克|社交媒体平台_网易订阅

标题: 从“百模”到“千体”：大模型智能体的竞争格局、商业模式和技术挑战
摘要: 科技记者报道：随着OpenAI发布GPT-4o，谷歌、字节、腾讯、百度、微软等科技巨头纷纷推出智能助理项目和多模态模型，标志着人工智能竞争从模型转向应用。字节升级AI助手“豆包”并大幅降低API费用，引发国内大模型价格战。腾讯和百度也公开了智能助手App和创作平台。微软发布GPT-4o驱动的桌面智能助理Copilot PC和开发平台Copilot Studio，并推出多模态小模型系列。这些动作预示着智能体时代到来，企业重心从模型转向应用，智能体成为大模型应用的主要载体，竞争格局从“百模”转向“千体”。
网址: 从“百模”到“千体”：大模型智能体的竞争格局、商业模式和技术挑战|人工智能技术|大模型|工作流|应用层|技术挑战|智能体_手机网易网

标题: AI的未来是一个巨大的模型，还是多个specialized小模型

摘要: 科技记者摘要：语言模型在多个领域展现出高效性，但最先进的模型往往是专有的，例如OpenAI的GPT-4和Anothropic的模型。然而，开源社区已经开发出竞争性模型，如Llama3。此外，定制的较小语言模型在特定领域（如法律、医疗、金融）的性能超越了专有模型。本文介绍了一种新方法，通过functional token整合多个开源模型，每个模型针对特定任务优化。新开发的Octopus v4模型利用functional token智能地引导用户查询至最合适的垂直模型，并重新格式化查询以优化性能。Octopus v4是Octopus系列的最新进化，擅长选择和参数理解与重组。文章还探索了使用图结构协调多个开源模型，利用Octopus模型和functional token的能力。通过激活约100亿参数的模型，Octopus v4在同级别模型中实现了74.8的SOTA MMLU分数。Octopus-V4-3B是一款先进的开源语言模型，拥有30亿参数，是Nexa AI设想中的语言模型图的主节点。该模型专为MMLU基准测试话题定制，能够高效地将用户查询转换成专业模型可以有效处理的格式。它擅长将这些查询正确引导至相应的专业模型，确保精确且有效的查询处理。文章邀请全球开发者和技术爱好者参与开源项目，共同创造强大的图语言模型，构建最经济最高效的模型解决方案，并联合所有垂类开源模型一起达到闭源模型的效果。试用Octopus v4模型：https://huggingface.co/NexaAIDev/Octopus-v4开源的GitHub: https://github.com/NexaAI/octopus-v4论文标题：Octopus v4: Graph of language models论文链接：https://arxiv.org/pdf/2404.19296 引言：大型语言模型（LLMs）的发展革新了自然语言处理，使AI系统能够准确理解和生成文本。这些模型在翻译、情感分析、问答、文档总结等任务中表现出色。在医疗、金融、法律和教育等领域，LLMs也显示出巨大潜力。开源LLMs如Llama3的出现促进了创新，而Meta
网址: AI的未来是一个巨大的模型，还是多个specialized小模型 | 机器之心

标题: GitHub CEO推出 Copilot Workspace…

摘要: GitHub CEO推出了Copilot Workspace，这是一个革命性的工具，允许开发者通过编写简单的英语句子来创建应用程序，从而将传统的编码过程转变为更直观的自然语言交互。这一创新有望降低编程门槛，让更多人能够参与到软件开发中来。
网址: GitHub CEO推出 Copilot Workspace…|github_新浪新闻

标题: 李飞飞经典对话AI教父Hinton 2.5万字全记录（全文+视频）
摘要: 科技记者报道：在2023年底，人工智能领域的两位重量级人物——被誉为AI教父的Geoffrey Hinton和AI教母的李飞飞——进行了一次历史性的同台对话。这次110分钟的对话内容丰富，回顾了人工智能的发展历程，并深入探讨了大数据、深度学习以及人工智能的未来。Hinton赞扬了李飞飞在推动人工智能技术方面的工作，并强调了她在ImageNet数据集创建中的关键作用。李飞飞分享了她在构建ImageNet时所面临的挑战，以及她如何克服学术界的怀疑和资金的缺乏。这次对话不仅展示了人工智能领域的里程碑事件，也预示了即将出版的李飞飞新书《我眼中的世界：人工智能黎明的好奇、探索和发现》的重要性。
网址: 李飞飞经典对话AI教父Hinton 2.5万字全记录（全文+视频）|ai教父|hinton|人工智能技术|李飞飞|神经网络|算法_手机网易网

标题: 分享|杨笛一新作：社恐有救了，AI大模型一对一陪聊，帮i人变成e人

摘要: 斯坦福大学助理教授杨笛一参与的最新研究提出了一种利用大语言模型（LLM）来训练社交技能的框架，旨在帮助人们更有效地进行沟通。该框架包括两个部分：AI Partner和AI Mentor。AI Partner通过模拟对话提供可扩展的体验式训练，减少学习风险和成本；AI Mentor则根据专业知识和事实提供个性化反馈。研究者认为，这种方法可以使社交技能训练更容易、更安全、更有吸引力，并呼吁跨学科创新以解决其广泛影响。杨笛一表示，APAM系统利用LLM通过现实实践和定制反馈进行社交技能训练，适用于初学者和有经验的学习者，并在多个领域提高技能，包括倾听和心理健康咨询等。尽管LLM在社交技能训练中潜力巨大，但研究者也强调了评估挑战，并提出了包括内在和外在评估程序的综合评估方案。
网址: 分享|杨笛一新作：社恐有救了，AI大模型一对一陪聊，帮i人变成e人 - 智源社区

标题: 清华接手，YOLOv10问世：性能大幅提升，登上GitHub热榜

摘要: YOLOv10，由清华大学研究人员开发，是实时目标检测领域的最新突破。在保持性能的同时，YOLOv10将延迟减少了46%，参数减少了25%，与前代YOLOv9相比，实现了显著的效率提升。新版本引入了无NMS训练的一致双重分配机制，以及整体效率-准确率驱动的模型设计策略，大幅降低了计算开销并增强了模型能力。YOLOv10在COCO数据集上展现了SOTA性能和效率，适用于自动驾驶、监控、物流等实际应用。项目地址：https://github.com/THU-MIG/yolov10，论文地址：https://arxiv.org/pdf/2405.14458。
网址: 清华接手，YOLOv10问世：性能大幅提升，登上GitHub热榜 | 机器之心

标题: AI智能体的炒作与现实：GPT-4都撑不起，现实任务成功率不到15%

摘要: 科技记者报道：人工智能（AI）智能体的宣传与现实表现存在差距。虽然大语言模型（LLMs）在性能、准确度和稳定性上有所提升，但现有版本的LLMs综合能力不足以完全支撑AI智能体。多模态、多任务、多领域已成为AI智能体的必要要求，但其实际效果并不理想。WebArena排行榜显示，即使表现最好的模型，成功率也只有35.8%。AI智能体初创公司和大型科技巨头被提醒要脚踏实地，从AI增强功能做起。当前构建AI智能体主要有单一智能体和多智能体系统两种架构方法。实践中，AI智能体面临可靠性、性能成本、法律问题和用户信任等挑战。一些初创公司如adept.ai、MultiOn、HypeWrite和minion.ai正在涉足AI智能体领域，但大多数仍处于实验阶段。大公司如OpenAI、Google和微软也在将AI功能带到桌面和浏览器，但这些智能体功能在真实场景中的表现还有待观察。AI智能体被过度炒作，但随着技术进步，人们可以期待更多成功的实际应用。近期重点应放在利用AI增强现有工具，而不是提供全自主服务。通过人机协同和传统工程方法，AI智能体有望在自动化复杂任务方面取得良好成果。
网址: AI智能体的炒作与现实：GPT-4都撑不起，现实任务成功率不到15% | 机器之心

标题: 国产开源Sora上新：全面支持国产AI算力，可用ReVideo视频编辑，北大-兔展团队出品

摘要: 国产开源项目Sora迎来更新，全面支持国产AI算力，包括华为昇腾。此次更新包括了视频编辑功能，用户可以使用ReVideo进行视频编辑。该项目由北京大学和兔展团队联合开发，所有数据、代码和模型均已开源。Open-Sora-Plan在GitHub上获得10.4k颗星星，用户可以在抱抱脸上进行试玩。项目团队对Sora进行了版本迭代，采用了更高质量的视觉数据与caption，并优化了CausalVideoVAE的结构。最新版本Open-Sora-Plan v1.1.0展示了视频生成的能力，包括10秒和2秒的文本生成视频，以及视频编辑功能。团队还展示了失败案例，并提出了可能的解决方案。用户可以在Hugging Face上试玩，但需要注意的是，生成每个视频大约需要4-5分钟。背后的技术框架包括Video VAE、Denoising Diffusion Transformer和Condition Encoder。项目目前仍在训练和观察第三阶段的模型，预计将增加帧数至513帧，约合21秒的视频。与前作相比，最新版本在CausalVideoVAE结构和数据质量上进行了优化。
网址: 国产开源Sora上新：全面支持国产AI算力，可用ReVideo视频编辑，北大-兔展团队出品 | 量子位

标题: 多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

摘要: 科技记者报道：厦门大学与腾讯优图团队推出名为“领唱员（Cantor）”的多模态思维链架构，该架构无需额外训练即可显著提升性能。在ScienceQA数据集上，基于GPT-3.5的Cantor准确率达到82.39%，较传统思维链方法提升4.08%。在MathVista数据集上，Cantor的准确率比原始Gemini模型高出5.9%。Cantor架构通过结合视觉和文本信息，避免了决策幻觉，并通过专家模块提供高级推理信息。该架构的设计包括决策生成和执行两个步骤，并通过模块化执行和汇总执行来生成最终答案。Cantor的性能超越了微调方法，且已开源，相关论文已上传至arXiv。
网址: 多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图 | 量子位

标题: OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA

摘要: 科技记者摘要：华中科技大学、华南理工大学及浙江大学的研究人员提出了一种新的文本识别方法VimTS，旨在提高跨领域文本端到端识别的泛化能力。该方法通过实现不同任务之间的协同作用，仅使用较少参数便有效地将原始的单任务模型转换为适合图像和视频场景的多任务模型。VimTS包括一个提示查询生成模块和一个任务感知适配器，两者共同促进不同任务之间的显式交互，并帮助模型动态地学习适合每个任务的特性。研究人员还提出了一个利用内容变形场(CoDeF)算法的合成视频文本数据集(VTD-368k)，以更低的成本学习时间信息。实验结果显示，VimTS在多个跨域基准测试中超越了现有方法，包括图像到图像和图像到视频的识别任务。论文链接：https://arxiv.org/pdf/2404.19652，代码地址：https://vimtextspotter.github.io。
网址: OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA|端到端|图像|适配器_新浪新闻

标题: 独角兽被微软挖角，新团队首曝光！情感AI嵌入机器人，超大内存升级情感体验

摘要: 科技记者报道：今年3月，人工智能领域的重要人物Mustafa Suleyman离开Inflection AI，加入微软领导其AI部门。微软在AI人才争夺战中胜出，而Inflection AI则面临领导层变动。Suleyman带领约70名团队成员转投微软，引发对Inflection AI未来影响的讨论。 Inflection AI已获得15.25亿美元融资，专注于开发具有情感共鸣的个人AI助理Pi。公司宣布由经验丰富的硅谷老将组成的新领导团队，包括新任CEO Sean White、CTO Vibhu Mittal、COO Ted Shelton和产品负责人Ian McCarthy。微软支付近6.5亿美元给Inflection，其中6.2亿美元用于非独家技术许可，3000万美元用于避免诉讼。Inflection AI联合创始人Reid Hoffman表示公司资金充足，将在情感智能领域保持领先。新团队致力于打造具有同理心的聊天机器人，专注于EQ（情感智能），与OpenAI、微软、谷歌等行业巨头竞争。Pi在EQ测试中表现出色，能够提供个性化和情感化的回应。 Inflection AI计划建立EQ的行业基准，并通过“移情微调”定制个性化模型。公司与企业合作，降低培训成本，并提供品牌特定的人工智能客服。
网址: 独角兽被微软挖角，新团队首曝光！情感AI嵌入机器人，超大内存升级情感体验|AI|人工智能|微软_新浪新闻

标题: OpenAI联创Greg最新采访：为什么OpenAI最先做出GPT-4？

摘要: 科技记者报道：在《5000天后的世界》一书中，凯文·凯利预测称雄增强现实（AR）的将不是目前的科技巨头GAFA（谷歌、苹果、脸书、亚马逊），而是新兴的创新者。历史表明，主导一个时代的企业往往无法在下一个时代继续领先，因为它们的成功成为创新的障碍。尽管谷歌在人工智能通用智能（AGI）领域投入巨大，但仍落后于OpenAI。OpenAI的GPT-4等强大模型的开发成功，揭示了大型科技公司创新不足的问题。 OpenAI的联合创始人兼总裁格雷格·布罗克曼在接受可汗学院CEO萨尔曼·可汗的采访时，揭示了OpenAI成功的秘诀。OpenAI的团队不仅拥有学术背景的研究人才，还有优秀的工程人才，这种组合使他们能够更有效地解决问题和推动项目进展。布罗克曼强调了研究与工程并重的方法，以及团队组织方式对于创新的重要性。 OpenAI的使命是建立造福人类的AGI，并已经在这一目标上工作了8年。团队致力于建立更大的神经网络，提高其能力、协调性和安全性，并部署这项技术以发挥其作用。布罗克曼认为，每一步进展都能真正产生影响，并开始造福人类。面对人工智能的安全性问题，布罗ckman认为对AI持有复杂情感是正确的，既要对新事物感到惊奇，也要警惕潜在的陷阱。他提到，AI安全问题有着悠久的历史，而OpenAI在不断学习如何面对这些风险。在教育领域，ChatGPT被视为一个工具，可以帮助无法获得优质教育资源的学生。布罗克man强调，制定规则和将技术融入教育需要广泛的意见和实践经验。最后，布罗克man和可汗都认为人工智能将增强而非削弱人类能力，每个人都可以通过智能手机获得AI的“超能力”。乐观是推动OpenAI前进的关键因素。
网址: OpenAI联创Greg最新采访：为什么OpenAI最先做出GPT-4？|联创|AI|Khan_新浪新闻