号外号外,硅谷多家大厂发力大模型,openai危矣

最近硅谷多家大厂在大模型方向有重大产品迭代,以下是详细内容。

                              图片来源:DALLE 3

😎 来自网络的新闻

  • Claude 3 Opus 在 LMSys Chatbot Arena 排行榜上正式击败了 GPT-4 Turbo。在 LMSys Chatbot Arena 排行榜上,Claude 3 Opus 的性能优于 GPT-4 Turbo 和 Gemini Pro,而 Claude 3 Haiku 的效率和成本效益则超过了 GPT-4 和 Mistral Large。

  • 据报道,OpenAI 和微软正计划斥资 1000 亿美元建设人工智能超级计算机数据中心项目。微软和 OpenAI 宣布合作建造“Stargate”,这是美国先进的人工智能超级计算机,配备数百万个 GPU。该项目可能超过 1150 亿美元,代表了对扩展数据中心能力以推进人工智能研究和开发的重大承诺。

  • xAI 宣布 Grok-1.5。 xAI 发布了 Grok-1.5,该更新将其令牌处理能力扩展到 128K,使其处理文本文档的时间比之前的版本延长了 16 倍。这一增强功能显着提高了 Grok-1.5 在分析大量文本方面的性能,并使其能够有效地定位其中的精确信息,正如它在 Haystack 基准测试中的成功所证明的那样。

  • 亚马逊和 Anthropic 加深了对推进生成式人工智能的共同承诺。亚马逊已向人工智能公司Anthropic投资40亿美元,以进一步开发人工智能技术。 Anthropic 利用 Amazon Web Services (AWS) Trainium 和 Inferentia 芯片来增强其 AI 模型。值得注意的是,Anthropic 的 Claude 3 模型已被 AWS 纳入 Amazon Bedrock 中。

  • 苹果表示其最新的 AI 模型 ReALM 甚至比 OpenAI 的 GPT4 更好。 Apple 发布了 ReALM,这是一种法学硕士,据称在上下文理解方面优于 OpenAI 的 GPT-4,适合准确响应查询,无论是与屏幕内容交互还是在后台操作。

  • 亚马逊的人工智能团队面临着到年中超越 Anthropic 的 Claude 模型的压力。亚马逊加大了其人工智能业务的力度,最终完成对人工智能初创公司 Anthropic 的 27.5 亿美元投资,总投资额达到 40 亿美元,旨在与微软在云行业的人工智能进展保持竞争力。

  • OpenAI的语音克隆AI模型只需要15秒的样本就可以工作。 OpenAI 推出了一款语音引擎,能够使用 15 秒的音频样本生成合成语音,具有适合各个行业的多语言文本转语音功能,并强调在推出时遵守同意指南。

  • 介绍詹巴。 AI21Labs 开发了 Jamba,这是一种混合人工智能模型,它将结构化状态空间 (SSM) 与 Transformer 架构相结合,以提高处理复杂数据序列的效率和多功能性。 Jamba 旨在通过整合经典 Transformer 和独立 SSM 模型的优势来克服它们的局限性。

  • 隆重推出 DBRX:全新的最先进的开放式法学硕士。 Databricks 推出了 DBRX,这是一种新的开源大语言模型(LLM),在编程和通用任务方面超越了 GPT-3.5,并且与 Gemini 1.0 Pro 具有竞争力。 DBRX 采用混合专家架构,拥有大量 1320 亿个参数,但对于任何给定输入只有 360 亿个参数处于活动状态。 DBRX Base 和 DBRX Instruct 模型都可以在 Hugging Face 上公开访问。

📚 来自网络的指南

  • 迈向 1 位机器学习模型。最近的 BitNet 和 1.58 位等研究凸显了机器学习中极低位量化的潜力,表明它允许在没有实际乘法运算的情况下执行量化权重的矩阵乘法,这可能会显着提高大型机器学习模型的计算效率。

  • 半导体巨头:人工智能芯片制造和设计领域的内部。在电子和人工智能的关键半导体领域,台积电在全球生产中处于领先地位,而英伟达则以其先进的人工智能芯片设计而闻名。供应链非常集中,ASML、台积电、三星等主要厂商因其专业的制造能力而不可或缺。台积电生产 NVIDIA H100 GPU 等精密零部件,但由于地缘政治紧张局势而面临供应链风险,促使投资多元化生产,台积电在美国制造设施投资 400 亿美元就是例证。

  • 使用 AutoTrain 微调 Mixtral 8x7B。该指南提供了有关如何使用 AutoTrain 微调 Mixtral 8x7B 语言模型的演练,强调了用户友好的界面以及本地和云环境的最低编码要求。它概述了设置、参数调整和执行的步骤,以便在自定义数据集上轻松训练模型,从而实现快速自定义和部署。

  • 使用 Claude 3 将视频教程转换为博客文章。本指南展示了如何使用 Claude 3 将两小时的教程转变为结构化的博客章节。

  • 使用 HuggingFace、RoBERTa 和 Comet 构建多语言 NER 应用程序。本指南概述了利用 HuggingFace 创建多语言 NER 应用程序,详细介绍了从使用 RoBERTa-base 进行数据加载和训练,到使用 Gradio 进行应用程序开发以及通过 Comet 库进行性能跟踪的过程。

🔬 有趣的论文和存储库

  • 大型语言模型中的长篇事实性。 DeepMind 开发了一种名为搜索增强事实评估器 (SAFE) 的系统,该系统利用 LLM 代理来评估长篇内容的真实性。 SAFE 将内容分解为离散事实,并采用多步骤过程,其中包括查询 Google 搜索来验证事实。在评估中,SAFE 在 72% 的时间里与人类注释保持一致,并且在 76% 的最初不一致的情况下表现优于人类,同时与人类注释者相比,其成本节省系数超过 20 倍。

  • Jamba:混合 Transformer-Mamba 语言模型。 Jamba 是一个法学硕士,通过专家混合方法将 Transformer 和 Mamba 架构结合在一起,针对具有扩展上下文长度的大规模语言任务的性能进行了优化。它可以在 80GB GPU 上运行。

  • 本地化语言模型中的段落记忆。这项研究研究了语言模型中的记忆定位,揭示虽然记忆分布在各个层中,但与记忆内容相对应的梯度表现出独特的空间模式。此外,通过有针对性地微调高梯度权重,可以选择性地忘记这些记忆的示例。

  • Gecko:从大型语言模型中提取的多功能文本嵌入。 Gecko 是一种新颖的文本嵌入模型,通过从法学硕士中提取知识来增强检索能力。该方法涉及一个两阶段的蒸馏过程,首先使用 LLM 创建合成查询-段落对,然后利用 LLM 识别最相关的段落和具有挑战性的负面示例来精炼这些数据。

  • mshumer/gpt-投资者。 gpt-investor 是一家基于法学硕士学位的代理机构,专为投资领域量身定制,提供特定行业股票的分析见解。它利用机器学习来解析金融数据、新闻和分析师评级,进行情绪分析和竞争排名。

感谢您的阅读!如果你想了解更多NLP知识,记得关注我.


 作者个人简介:
💐大厂多年AI算法经验,创业中,兼任算法/产品/工程
🍎持续分享aigc干货
❤️提供人工智能相关岗位简历优化和技能辅导服务,欢迎骚扰。
🌺提供aigc产品推广服务


微信公众号
 Ai自然说
f2b66497f90744c59881f6540019dfb8.png

个人微信:

e61251eeeee143ffb80613b46e9da3d4.jpeg

这是我的个人微信,欢迎添加,找我讨论AI相关的内容。
 

微信群:
3b93b0880366496db7fe3135b1c78172.jpeg
攒了一个微信群,大家可以在里面讨论AI相关的技术、产品、运营、商业知识和资讯,欢迎扫码加入。


知识星球:


5eaaf6361e4d4c49a2c80e332fd3a7c3.jpeg
运营了一个知识星球,我在里面会定期分享一些关于ai的高质量干货,欢迎扫码加入。

  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ai知识精灵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值