字节跳动发布豆包大模型,卷起价格战;腾讯混元文生图大模型全面开源 | AI 头条...

c3b62d00641d70d6a54e79c504b53516.gif

整理 | 王轶群

出品 | AI 科技大本营(ID:rgznai100)

0328af9b8b96c9adfe0cffbfdc6324c1.png

一分钟速览新闻点!

  • OpenAI联合创始人兼首席科学家 Ilya Sutskever 离职

  • AWS 首席执行官亚当·塞利普斯基将辞职

  • 谷歌将Gemini 1.5 Pro 上下文窗口扩展到200万 tokens,一举发布近10款模型

  • 首个中文原生DiT架构,腾讯混元文生图大模型开源

  • 字节跳动发布豆包大模型,主力模型比行业价格低99.3%

  • Memo AI 现已支持 GPT-4o 翻译视频字幕

  • Anthropic 在欧洲推出 Claude 聊天机器人和订阅计划

eac79443c4e6aff7493c48649cff5285.png

全球 AI 要闻

OpenAI联合创始人兼首席科学家 Ilya Sutskever 离职

Ilya Sutskever 5月15日早间在社交媒体X上发文称,近十年后决定离开OpenAI,并表示“我很期待接下来的计划,这个项目对我个人来说意义重大,我会在适当的时候分享细节。”OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)也在X上发文称,Ilya Sutskever 和 OpenAI 即将分道扬镳。如果没有他,OpenAI就不会有今天。虽然他有自己有意义的工作要做,但永远感激他在这里所做的一切。雅库布·帕乔基(Jakub Pachocki)将成为新任首席科学家。

据报道,雅库布·帕乔基此前曾担任 OpenAI 研究总监,并领导 GPT-4 和 OpenAI Five 的开发。(路透社)

AWS 首席执行官亚当·塞利普斯基将辞职

亚马逊首席执行官安迪·贾西(Andy Jassy) 表示,AWS 首席执行官亚当·塞利普斯基(Adam Selipsky)将于6月3日辞职,由马特·加曼(Matt Garman)接替。

Selipsky于2005年加入AWS,并于2021年成为首席执行官。Selipsky 一直是亚马逊围绕生成式 AI 发布的领军人物,例如部署 Nvidia 的 GH200 芯片、推出名为 Amazon Q 的聊天工具,以及推出亚马逊自己的 Trainium AI 芯片的新版本。(The Verge)

谷歌将 Gemini 1.5 Pro 上下文窗口扩展到200万 tokens,一举发布近10款模型

在Google I/O 2024 大会上,谷歌将 Gemini 1.5 Pro 上下文窗口扩展到了 200 万个 tokens,并以私人预览版的形式提供给开发人员。Gemini 1.5 Pro 现在可以直接在 Gemini Advanced 中供消费者使用,可以跨 35 种语言使用。

谷歌一举发布了近10款模型:

  • 比 Gemini 1.5 Pro 更轻量级的 Gemini 1.5 Flash 发布,针对低延迟和成本等重要的任务进行了优化。

  • 可制作“高质量” 1080p 视频的 Veo 模型和文本生成图像模型 Imagen 3 发布。最新、最先进的视频生成模型Veo:可以视为对标 OpenAI 的 Sora,Google 在今天推出了视频生成模型 Veo,它可以生成各种电影和视觉风格的高质量 1080p 分辨率视频,时间可以超过一分钟。

  • 采用全新架构、27B 大小尺寸的 Gemma 2.0:Gemma 2 将提供新尺寸,并采用专为突破性性能和效率而设计的全新架构。Gemma 2 具有 270 亿个参数,其性能可与 Llama 3 70B 相媲美,但尺寸却只有 Llama 3 70B 的一半。

  • 第一个包含内置设备基础模型的移动操作系统,Android深度集成了 Gemini 模型,成为以 Google AI 为核心的操作系统。

  • 第六代 TPU Trillium 发布,与上一代 TPU v5e 相比,每个芯片的计算性能提高了 4.7

  • Google 第一个视觉语言开放模型 PaliGemma 现已推出。

  • Google 发布了一个名为“AI 概述”(AI Overviews)的功能,做到“一次搜索,获得所有信息”。在照片搜索应用层面上,Google 带来了一个“询问照片”(Ask Photos)功能。

  • 新增 NotebookLM 中的音频输出。

Google DeepMind CEO、联合创始人 Demis Harbis 透露,Google 内部一直在致力于开发对日常生活有帮助的通用 AI Agent,Project Astra(高级视觉和说话响应代理)便是主要的尝试之一。

首个中文原生DiT架构,腾讯混元文生图大模型开源

5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

据了解,这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

升级后的混元文生图模型采用了基于Transformer的扩散模型架构(简称DiT),具备更强的可扩展性,在参数量越多的情况下,性能越强,有利于提升视觉模型生成效果及效率。这也是此前爆红的文生视频产品Sora 背后的关键技术。

目前,腾讯混元文生图模型参数量达 15 亿。评测数据显示,最新的腾讯混元文生图模型效果相比前代提升超过 20%,远超开源的Stable Diffusion模型,在目前已开源的文生图模型中,综合性能最佳,达到国际领先水平。

83d20eb69b1f0a448a0a8a8b2257d7e2.png

据了解,腾讯在开源上一直持开放态度,已开源了超 170 个优质项目,均来源于腾讯真实业务场景,覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块,目前在Github上已累计获得超 47 万开发者关注及点赞。

字节跳动发布豆包大模型,主力模型比行业价格低99.3%

5月15日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎是字节跳动旗下云服务平台,据火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理1200亿Tokens文本,生成3000万张图片。

“大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有0.0008元/千Tokens,0.8厘就能处理1500多个汉字,比行业便宜99.3%,”谭待表示,大模型从以分计价到以厘计价,将助力企业以更低成本加速业务创新。

豆包大模型原名“云雀”,是国内首批通过算法备案的大模型之一。据悉,字节跳动基于豆包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务,用以提升效率和优化产品体验。

728a4021ebda6d1a5c2f4de05a933fd8.png

Memo AI 现已支持GPT-4o 翻译视频字幕

5月14日,MemoAI官网发布推文表示,Memo AI 现已支持GPT-4o 翻译视频字幕。测试下来速度快,翻译效果不错,合并情况少。对比 turbo 降低50%的成本,速度提升了两倍。

Memo AI 可以将任何没有字幕的视频实时生成所需语言的字幕和笔记,支持多语言转录和翻译,方便用户提取核心内容。

Anthropic 在欧洲推出 Claude 聊天机器人和订阅计划

Anthropic,亚马逊支持的人工智能初创公司5月13日表示,将于5月14日在欧洲推出生成式人工智能助手 Claude。个人和企业可以通过网络和 iPhone 应用程序使用它。Anthropic 的 Claude 助手的付费订阅版本名为 Claude Pro,将提供给想要访问其所有模型的用户,包括 Anthropic 最先进的产品 Claude 3 Opus。Anthropic 还推出了以业务为中心的 Claude Team 订阅计划,每月费用为 28 欧元(30 美元),不含增值税 (VAT)。Anthropic 首席执行官兼联合创始人 Dario Amodei 在周二的一份声明中表示:“我们在设计 Claude 时就坚定地致力于准确性、安全性和隐私性。”欧盟今年早些时候通过了世界上第一套管理人工智能的主要监管基本规则。(CNBC)

88b3eebae3e20dfc53a97fe9fd962ec6.gif

e3a5f560819d53d8f671ad945d9cbb15.jpeg

  • 15
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
字节跳动是**一家中国的互联网科技公司,以其自研的大模型技术平台而著称**。字节跳动的大模型技术涉及文本、图像、视频等多种领域,并在内部50多个业务场景中进行了实践验证,展示了其强大的多模态能力和广泛的应用前景。以下是具体介绍: 1. **技术验证与应用**: - 字节跳动的大模型技术已在公司内部50+的业务场景中得到验证,每日处理千亿级的tokens,持续优化模型性能和稳定性。 - 该大模型被应用于AI对话助手“豆包”、AI应用开发平台“扣子”及多个互动娱乐和创作工具上,有效提升了操作效率和产品体验。 2. **大模型家族介绍**: - 字节跳动自研的大模型家族包括豆包模型、火山方舟2.0、火山引擎等,覆盖了文本、图像、视频等多种模态,实现了技术的多元化和综合化。 - 其中,豆包通用模型是核心成员,分为两种尺寸:大杯的豆包通用模型pro可精调,窗口尺寸最大可达128K;小杯的豆包通用模型lite具有更快的响应速度。 3. **商业和价格优势**: - 在价格方面,豆包通用模型pro在小于32K窗口尺寸的情况下,价格低至0.0008元/千tokens,比行业价格便宜99.3%,这一突破性定价策略大大提高了其市场竞争力。 - 字节跳动通过这些大模型技术提供了更多选择和创新空间给企业和开发者,尤其在AI对话助手和AI应用开发平台等方面展示出其独特的创新和应用优势。 4. **技术架构与创新**: - 豆包模型的推出,显示了字节跳动AI模型推理价格、性能、应用场景方面的全面考虑和技术积淀。 - 字节跳动模型的架构和设计充分体现了其对市场需求的深刻理解和快速响应能力,尤其是在多模态交互和大规模数据处理方面展现出前瞻性的技术布局。 5. **社会影响与未来展望**: - 随着AI技术的不断进步和普及,字节跳动的大模型技术将在推动相关技术标准化、降低成本和拓展应用领域方面发挥重要作用。 - 未来,随着更多业务的接入和更广泛的行业合作,字节跳动的大模型技术预计将在全球AI领域扮演更加核心的角色,促进各行各业的智能化转型。 总之,字节跳动的自研大模型技术不仅在技术验证、应用实践、价格策略、技术创新等方面表现出色,其对未来AI领域的深远影响也值得期待。随着技术的进一步发展和应用的深化,字节跳动有望在全球AI技术市场中继续扩大其影响力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值