一觉醒来 AI科技圈发生的大小事儿 04月25日

最新推荐文章于 2024-09-15 00:21:12 发布

文浩Marvin

最新推荐文章于 2024-09-15 00:21:12 发布

阅读量348

点赞数 8

分类专栏： AIGC 文章标签： AIGC

本文链接：https://blog.csdn.net/fwh66/article/details/138208458

版权

AIGC 专栏收录该内容

52 篇文章 1 订阅

订阅专栏

⏩微软发布Phi-3 Mini：3.8B参数小到能塞进手机，性能媲美GPT-3.5

微软发布了Phi-3-mini，这是微软Phi-3系列模型推出的首个模型。Phi-3-mini具有38亿参数和3.3T tokens的庞大训练数据量，在语言、推理、编码和数学基准测试中超越了众多数百亿参数规模的模型。该模型体积小，可以在端侧部署和运行，具有不亚于GPT-3.5的性能。Phi-3-mini的成本大幅降低，可能只有其他相似功能模型的十分之一。该模型的设计遵循了微软的“负责任AI标准”，经过了严格的安全度量和评估。

⏩英伟达收购两家AI创企，要让AI芯片变得更便宜！

英伟达宣布收购以色列AI创企Run:ai和Deci，旨在降低开发或运行生成式AI模型的成本，提振英伟达AI芯片的需求。Run:ai是一个基于kubernetes的工作负载管理和编排软件提供商，旨在实现高效GPU集群资源利用；Deci通过调整AI模型使其可以在AI芯片上更便宜地运行，并为使用英伟达CUDA软件开发的机器学习应用提供动力。这两家创企的收购将有助于提高英伟达AI芯片的效率，吸引更多客户使用NVIDIA DGX Cloud。

⏩地平线征程6正式发布：2024年开启量产，2025年交付超10款车型

地平线举办“征程所向，向高而行”——2024智驾科技产品发布会，发布新一代车载智能计算方案征程®6系列以及Horizon SuperDrive™全场景智能驾驶解决方案，加速智驾平权时代的到来。征程6系列将于2024年内开启首个前装量产车型交付，并预计于2025年实现超10款车型量产交付。地平线以终为始，前瞻布局了软硬结合全栈技术，以软件为牵引、硬件为驱动，打造出面向全场景、全生态的软硬结合智能驾驶系统，并以极致的开放打造极致的效率，抵达智驾终局。

⏩首批中文版Llama3模型来了，解释成语、答弱智吧问题

该文章介绍了Meta推出的Llama 3模型对中文的支持效果欠佳的问题，并介绍了两个针对中文进行微调的项目：llama3-Chinese-chat和Llama3-8B-Chinese-Chat。文章详细介绍了这两个项目的模型效果、训练数据、推理成本以及作者整理的教程和资源。此外，文章还展示了Llama3-8B-Chinese-Chat模型对弱智吧问题的回答和安全性测试的结果，以及对清华大学的介绍生成测试的结果。

⏩AI信任危机之后，揭秘预训练如何塑造机器的「可信灵魂」

这篇文章介绍了大语言模型（LLMs）的预训练阶段在构建可信概念方面的重要性。作者通过研究发现，在预训练的早期阶段，LLMs就能够建立起有关可信概念的线性表征，并能够区分可信与不可信的输入。文章还介绍了LLM360开源项目提供的丰富预训练资源，并初步验证了预训练过程中的切片对提升LLMs的可信能力的作用。这篇文章对于理解LLMs的预训练过程以及构建可信AI模型具有重要意义。

⏩硬控设计人一分钟，加持大模型的Adobe，PS起来更香了

Adobe推出新的图像生成模型Firefly Image 3，旨在提高工作效率，生成更高质量、更详细的图像。该模型具有逼真质量、更好的光照、定位和对细节的关注。用户可以上传图像来提示AI模型生成结果，以匹配样式、颜色等相似元素。Firefly Image 3还可以为图像生成背景和增强细节，提高清晰度。Adobe还为Photoshop添加了一些新的标准工具，以加快创作过程。参考材料不会用于训练模型，并为生成的内容添加水印。新工具可以安全地用于商业用途。

⏩苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

苹果发布了基于开源训练和推理框架的高效语言模型族OpenELM，共四种变体。OpenELM采用逐层缩放的方式，每个Transformer层都有不同的配置，实现了更有效的跨层参数分配。苹果发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。OpenELM的性能优于使用公开数据集进行预训练的现有开源LLM。

⏩加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

最近，字节跳动技术团队开源了一种名为Hyper-SD的扩散模型蒸馏框架，该框架结合了轨迹保持蒸馏和轨迹重构蒸馏两种策略的优点，能够在压缩去噪步数的同时保持接近无损的性能。与现有的扩散模型加速算法相比，该方法取得了卓越的加速效果。经过实验和用户评测的验证，Hyper-SD在SDXL和SD1.5两种架构上都能在1到8步生成中实现SOTA级别的图像生成性能。

⏩MiniMax不声不响出了款让人惊喜的生产力产品：「海螺AI」大测评

该文章介绍了MiniMax推出的万亿MoE模型abab 6.5以及基于该模型开发的生产力产品“海螺AI”。abab 6.5在各类核心能力测试中接近世界领先的大语言模型，而“海螺AI”则提供了听说读写、智能搜索、免费查数据、识图、创作文案等功能，支持语音交互，适用于学生、职场人士和内容创作者。该产品还具备处理长文本的能力，能够快速提炼关键信息和总结文章要点。

⏩8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare

该文章介绍了一种新的策略，即从闭源多模态大模型中获取高质量的以文本为中心的VQA数据，并构建了一个千万级的指令微调数据集。通过自问、自答、自我推理和评估等步骤生成VQA数据，并利用这个数据集训练了以文本理解为中心的多模态大模型TextSquare-8B。实验证明，TextSquare-8B在多个benchmark上的表现超过了GPT4V和Gemini等开源模型。该研究揭示了指令微调数据规模、训练收敛损失和模型性能之间的关系，并证明了推理数据对VQA任务的积极影响。

⏩颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

颜水成团队联合新加坡国立、南洋理工大学开源了Vitron模型，为下一代通用视觉大模型的终极形态奠定了基础，标志着大模型迈向通用人工智能（AGI）的又一大步。Vitron是一款通用视觉多模态大模型，支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，解决了图像/视频模型割裂问题，为下一代通用视觉大模型的发展提供了新的方向。该模型具有综合性、技术创新、人机交互和应用潜力等优势，展示了通向更统一的视觉多模态通用模型的巨大潜力。

⏩仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

Snowflake发布了一款专注于企业级应用的顶级大型语言模型（LLM）——Snowflake Arctic。Arctic具备高效智能和开源开放的优势，为经济高效的训练设定了新的基线，使Snowflake客户能够以低成本为其企业需求创建高质量的定制模型。Arctic在企业智能方面表现出色，训练计算成本较低，与其他使用类似计算成本训练的开源模型相比能力更强。