人工智能
文章平均质量分 71
吴脑的键客
凡人修仙,AGI散修。领域展开——四海皆兄弟!!! 曾用 DisonTangor
展开
-
OpenAI推出高级语音模式 提供更多语音和全新外观
OpenAI 在春季更新中展示了 Sky 的声音,但在这一阵容中缺少了 Sky 的声音,这导致斯嘉丽-约翰逊(Scarlett Johansson)发出了法律威胁。这次推出的另一项功能缺失了:ChatGPT 的视频和屏幕共享功能是 OpenAI 在四个月前的春季更新中首次推出的。在演示过程中,OpenAI 的一位工作人员向大家展示了如何向 ChatGPT 提出实时问题,比如面前纸张上的数学问题,或者电脑屏幕上的代码问题。在我们对 AVM 的测试过程中,我们发现故障并不少见,但该公司称现在已经有所改善。原创 2024-09-25 10:37:43 · 200 阅读 · 0 评论 -
Google发布改进型Gemini 1.5 系列AI模型 并将API价格降低50%
最后,Google发布了名为"Gemini-1.5-Flash-8B-Exp-0924"的改进版 Gemini 1.5 模型。更新后的 Gemini 1.5 系列模型在 MMLU-Pro 基准成绩提高了约 7%,在 MATH 和 HiddenMath 基准中提高了约 20%,在视觉和代码用例中提高了约 2-7%。现在,两个模型的响应风格都更加简洁。Google今天发布了两款可投入生产环境的更新版Gemini 1.5 型号:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。原创 2024-09-25 10:36:08 · 217 阅读 · 0 评论 -
PDF一键转播客!PDF2Audio让文档“开口说话“
同时,PDF2Audio提供了多种内容模板,包括播客、讲座和摘要等,用户可以根据自己的需求选择最合适的模板,轻松将学术论文、行业报告或个人笔记转化为易于理解的音频格式。用户只需通过简单的操作,就能将枯燥的文字资料变成生动有趣的有声内容。近日,一款名为PDF2Audio的开源工具应运而生,它巧妙地将人工智能技术与传统阅读方式相结合,为用户提供了一种全新的信息获取方式。用户可以多次修改生成的脚本,并提供具体反馈,系统会根据这些意见不断优化音频内容,最终呈现出令人满意的结果。原创 2024-09-25 08:53:29 · 88 阅读 · 0 评论 -
微软宣称其新工具可纠正人工智能幻觉 但专家依然对此表示怀疑
玛丽皇后大学专门研究人工智能的研究员迈克-库克(Mike Cook)认为,即使"Correction"能像宣传的那样发挥作用,它也有可能加剧人工智能的信任和可解释性问题。在被问及有关 Correction 模型的背景介绍时,该发言人指出,微软研究团队最近发表了一篇论文,描述了这些模型的预生产架构。如果检测到幻觉,分类器就会引入第二个模型,即语言模型,试图根据指定的"基础文件"纠正幻觉。毕马威会计师事务所(KPMG)的一项民意调查显示,在试用人工智能工具时,准确性和可能出现的幻觉是企业目前最担心的问题。原创 2024-09-25 06:23:28 · 804 阅读 · 0 评论 -
Cloudflare为网站添加AI审计 可检查AI爬虫何时抓取和抓取频次以及直接屏蔽爬虫
此外 Cloudflare 还计划在明年推出交易市场,允许网站管理员设置自己网站的内容抓取价格,AI 公司如果愿意的话可以付费获取抓取权限,如果不愿意付费那网站就可以通过 Cloudflare 一键拦截爬虫阻止内容被抓取。其中 AI 审计工具中的禁止抓取与 Cloudflare 已经提供的一键禁止所有 AI 爬虫抓取不同,在 AI 审计工具中网站管理员可以分门别类的进行审计和屏蔽。原创 2024-09-25 06:04:46 · 192 阅读 · 0 评论 -
Sam Altman最新博文:智能时代将带来无限的智能和丰富的能源
Altman 用简洁的语言概述了 AI 进步的关键因素 —— 深度学习这一技术成功并不断在规模扩展的过程中取得可预测的进展,这一突破将促使 AI 在解决复杂问题上的能力越来越强,从而推动科学、技术和经济的持续发展。这是看待人类历史的一种狭隘方式:在数千年的科学发现和技术进步的积累之后,我们已经弄清楚了如何将沙子融化,加入一些杂质,然后以惊人的精确度在极其微小的尺度上排列成计算机芯片,运行能量,通过这些芯片创造出越来越有能力的 AI 系统。进步的故事将继续,我们的孩子将能够做一些我们无法做到的事情。原创 2024-09-24 12:53:46 · 580 阅读 · 0 评论 -
扎克伯格的未来愿景 用智能眼镜引领数字社交互动新时代
无论未来如何,可以肯定的是,技术将继续改变我们的社交互动,而 Meta 正在这场变革中扮演着至关重要的角色。在即将召开的 Meta Connect 2024 大会之前,对公司创始人马克-扎克伯格(Mark Zuckerberg)进行了长达 90 分钟的播客采访,对 Meta 的未来发展方向和愿景进行了阐述。他认为,智能眼镜将是实现这一目标的重要工具。最后,扎克伯格重申了 Meta 的愿景:在大型人工智能模型和智能眼镜方面,他们的目标是建立一个开放的生态系统,让开发者和创新者可以自由地创造出优秀的产品。原创 2024-09-22 06:30:00 · 290 阅读 · 0 评论 -
OpenAI o1-preview和o1-mini现已在 GitHub Copilot和GitHub Models中提供
在将 o1-preview 与 GitHub Copilot 一起使用时,GitHub 团队注意到该模型的推理能力可以更深入地理解代码约束和边缘情况,从而产生更高效、更高质量的结果。有了这个新的预览版,开发人员可以在 VS Code 中选择 o1-preview 或 o1-mini 来支持他们的 Copilot 聊天体验,而不是当前的默认模型 GPT-4o。与此相关,OpenAI最近提高了面向开发者的 o1-preview 和 o1-mini API 的速率限制。原创 2024-09-21 10:04:04 · 678 阅读 · 0 评论 -
微软 GRIN-MoE 人工智能模型挑战编码和数学,在关键基准测试中击败竞争对手
微软发布了一个突破性的人工智能模型–GRIN-MoE(Gradient-Informed Mixture-of-Experts),旨在提高编码和数学等复杂任务的可扩展性和性能。该模型每次只选择性地激活一小部分参数,从而使其既高效又强大,有望重塑企业应用。GRIN-MoE 在研究论文 "GRIN:GRadient-INformed MoE "中作了详细介绍,它采用了一种新颖的专家混合(MoE)架构方法。原创 2024-09-21 06:15:00 · 1252 阅读 · 0 评论 -
OpenAI面向开发者继续提高o1系列模型的调用速率 最高每分钟可调用1000次
早前 OpenAI 推出基于 o1 系列的新模型,分为 o1-preview 预览版和更快更便宜的 o1-mini 版,该系列模型的主要特点是可以解决更复杂推理任务。此次调整前 o1-preview 模型的调用速率为每分钟 100 个请求,o1-mini 的调用速率则是每分钟 250 个请求;今天 OpenAI 宣布提高 Tier 5 开发者的 o1 系列模型调用速率,鼓励更多开发者积极使用 o1 系列模型,但目前这仅适用于 5 级开发者,后续 OpenAI 会陆续扩展支持 1~4 级开发者。原创 2024-09-20 15:45:27 · 335 阅读 · 0 评论 -
阿里吴泳铭:生成式AI的真正价值不是做超级应用,而是直击物理世界!
在当前生成式AI的热潮中,这种现象尤为明显。随着时间推移,这项技术将如春风化雨般渗透到我们生活的方方面面,从根本上改变我们与周遭世界的关系。未来,我们可能不再局限于通过屏幕与程序交互,而是能够借助这种智能技术直接与物理世界展开对话,创造出前所未有的体验和可能性。然而,阿里巴巴的吴泳铭却提出了一个更为深远的洞见:生成式AI的真正价值并非仅限于创造炫目的应用,而是在于彻底改变我们与物理世界的互动方式。就像种子在地下默默生长,真正的变革力量也在时间的长河中悄然孕育,直到某一天突破地表,呈现出惊人的生命力。原创 2024-09-20 09:23:41 · 150 阅读 · 0 评论 -
上海AI气象大模型提前6天预测“贝碧嘉”台风登陆浦东 今年已多次精准预测
其中,今年第13号台风“贝碧嘉”(强台风级)的中心于9月16日7时30分前后在上海浦东临港登陆,一路向西横扫上海,成为1949年有记录以来正面登陆上海的最强台风。“除成功预报此次台风‘贝碧嘉’的移动轨迹之外,从今年汛期降水实时预报结果来看,伏羲大模型也曾提前8天以上精准预测河南南阳特大暴雨、提前15天以上预测湖南华容县洞庭湖决堤事件。据介绍,目前风乌大模型将提前72小时台风路径预报精度较经典方法提升25%以上,可在单张显卡上运行,30秒即可输出未来10天的全球气象预报结果。原创 2024-09-20 06:15:00 · 258 阅读 · 0 评论 -
谷歌论文提前揭示o1模型原理:AI大模型竞争或转向硬件
基于论文提出的计算最优(compute-optimal)测试时计算扩展策略,规模较小的基础模型在一些任务上可以超越一个14倍大的模型。在AI领域,谁能拥有更强大的算力,谁就可能在下一阶段的竞争中占据优势。仅在OpenAI发布最新推理模型o1几日之后,海外社交平台 Reddit 上有网友发帖称谷歌Deepmind在 8 月发表的一篇论文内容与o1模型原理几乎一致,OpenAI的护城河不复存在。o1模型在给出答案之前,会生成一系列中间推理步骤,不断完善自己的思维过程,尝试不同的策略,并能识别自身错误。原创 2024-09-20 06:00:00 · 569 阅读 · 0 评论 -
阿里通义千问开源Qwen2.5系列模型:Qwen2-VL-72B媲美GPT-4
通义千问团队宣布,继Qwen2发布三个月后,Qwen家族的最新成员——Qwen2.5系列语言模型正式开源。这标志着可能是历史上最大规模的开源发布之一,包括了通用语言模型Qwen2.5,以及专门针对编程和数学领域的Qwen2.5-Coder和Qwen2.5-Math模型。Qwen2.5系列模型在最新的大规模数据集上进行了预训练,数据集包含高达18T tokens,相较于Qwen2,新模型在知识获取、编程能力和数学能力方面均有显著提升。原创 2024-09-19 09:08:44 · 1771 阅读 · 0 评论 -
智源推出下一代检索增强大模型框架MemoRAG
智源研究院表示,尽管MemoRAG项目仍处于初期阶段,但他们期待社区的反馈,并将持续优化模型的轻量化、记忆机制的多样性以及其在中文语料中的表现。它还能从全局记忆中生成精确的上下文线索,提高问题解答的准确性,并挖掘数据中的深层次洞见。MemoRAG采用了一种新颖的模式,通过“基于记忆的线索生成——基于线索指引的信息获取——基于检索片段的内容生成”的流程,实现了在复杂场景下精准获取信息的能力。该框架基于长期记忆,旨在推动检索增强生成(RAG)技术的发展,使其能够处理更复杂的任务,而不仅限于简单的问答。原创 2024-09-19 06:30:00 · 301 阅读 · 0 评论 -
EA首席执行官:AI现在是“我们业务的核心”
我们都记得与人工智能的对抗,它在当今生成式人工智能的创新中不断发展。在直播演示中,Wilson 提到 EA的游戏一直处于技术曲线的最前沿,而不同形式的人工智能始终是该公司创意之旅的核心。Wilson 认为,扩张意味着为开发者提供“更大的创作空间和更丰富的色彩来描绘更绚丽的世界”。除此之外,这项技术还能让 EA 团队创造出 “更有深度和智慧的角色,讲述更有个性和细微差别的故事”。效率不仅仅意味着节省成本,还意味着更快、更便宜、更高质量地完成 EA 目前所做的事情,包括更多的迭代和更多的测试。原创 2024-09-18 10:45:58 · 166 阅读 · 0 评论 -
上海人工智能实验室开源视频生成模型Vchitect 2.0 可生成20秒高清视频
然而,我们也需要认识到,随着AI技术的快速发展,如何平衡技术创新与内容真实性,如何保护创作者权益,都是需要社会各界共同思考的问题。Vchitect2.0的核心优势在于其强大的生成能力和高度的可定制性。这一功能极大地降低了视频创作的门槛,使得即使没有专业设备和技能的普通用户也能轻松制作出高质量的视频内容。无论是将文字转化为生动的视频内容,还是把静态图像变成引人入胜的短片,Vchitect2.0都能胜任。更值得一提的是,它还具备超分辨率和帧插入功能,这意味着生成的视频不仅画质清晰,流畅度也达到了新的高度。原创 2024-09-18 10:40:31 · 733 阅读 · 0 评论 -
Mistral 推出免费套餐 供开发人员测试其 AI 模型
Mistral NeMo、Mistral Small和Codestral的价格降低了50%以上,Mistral Large则降价33%。尽管Mistral标榜其AI模型为"开放",但通过提供便捷的平台服务,公司显然希望将用户留在其生态系统内,为未来的商业化铺平道路。这一系列举措不仅展示了Mistral在技术创新上的实力,更彰显了其在竞争激烈的AI市场中的战略眼光。这家估值60亿美元的公司推出的新举措包括免费测试套餐、大幅降价和新增多模态功能,展现了其在日益激烈的AI模型提供商领域的进取心。原创 2024-09-18 10:32:36 · 347 阅读 · 0 评论 -
Mistral AI 又又又开源了闭源企业级模型——Mistral-Small-Instruct-2409
就在不久前,Mistral 公司在开源了 Pixtral 12B 视觉多模态大模型之后,又开源了自家的企业级小型模型 Mistral-Small-Instruct-2409 (22B),这是 Mistral AI 最新的企业级小型模型,是 Mistral Small v24.02 的升级版。该机型可根据 Mistral Research License 使用,为客户提供了灵活的选择,使其能够在翻译、摘要、情感分析和其他不需要完整通用模型的任务中,选择经济高效、快速可靠的解决方案。原创 2024-09-18 10:21:22 · 1340 阅读 · 0 评论 -
Karpathy认为“LLM”这个名字不准确 马斯克非常赞同
如果核心问题真的变成了预测下一个 token,那么深度学习框架(例如 PyTorch 及其同类框架, 因为 PyTorch 提供了过于广泛的操作和层的可配置性而显得过于普通)也可能过于普通,无法满足大多数问题随时间推移的需要。LLM 应该改名吗?”有人发表了这样的观点。在 Horace He 看来,这些技术的多样性说明,即使是在专注于 LLM 的应用中,深度学习框架的通用性也是有其必要性的,以适应不断发展和变化的模型需求。还有网友认为,“Large”这个词用的也不好,因为今天的“大”在未来会显得“小”。原创 2024-09-17 20:28:40 · 438 阅读 · 0 评论 -
随着访问范围的扩大 OpenAI o1-mini 现已向免费用户开放
要访问桌面上的新模式,只需按 ChatGPT 左上角的 ChatGPT Auto 下拉菜单,然后前往 Alpha Models 选项,如果您的账户已启用 o1-mini,您就会看到它。在国际数学奥林匹克(IMO)的资格考试中,它也取得了非常好的成绩,得分率为 83%,而 GPT-4o 只有 13%;如果长按 ChatGPT 响应,然后按右键菜单底部的更改型号,现在会列出一个名为 Alpha [gpt-4o] 的新型号。与以前的版本相比,这使它们能够推理复杂的任务,解决与科学、编码和数学有关的更难的问题。原创 2024-09-17 20:08:46 · 426 阅读 · 0 评论 -
OPPO大模型升级为AndesGPT-2.0 支持多模态等能力
在数学推理能力方面,AndesGPT研发团队收集了海量开源数学数据集,并通过三重数据过滤构造高质量的数据,显著提升了模型的数学能力。此外,AndesGPT-2.0将大语言模型升级为多模态大模型,交互方式从传统的语言交互升级为语言+视觉+触摸的多模态交互,带来更加自然流畅的交互体验。OPPO公司宣布其人工智能大模型AndesGPT-2.0在权威第三方评测机构SuperCLUE发布的《中文大模型基准评测2024年8月报告》中表现卓越,荣获多项第一,标志着OPPO在AI领域的技术实力进一步得到行业认可。原创 2024-09-17 13:48:03 · 360 阅读 · 0 评论 -
甲骨文创始人埃里森:人工智能终有一天会追踪你的一举一动
埃里森的构想与乔治-奥威尔先知先觉的小说《1984》中所描绘的警世世界颇有几分相似。在奥威尔的小说中,大洋洲的极权政府利用无处不在的 "电视屏幕 "对公民进行无时无刻的监控,创造了一个隐私不复存在、独立思考几乎不可能的社会。但是,奥威尔的名言 "老大哥在看着你 "在埃里森的技术驱动场景中将被赋予新的含义,人工智能系统,而不是人类监视者,将成为时刻警惕的权威之眼。虽然埃里森试图从正面描绘他对普遍公共监控的预测,但他的言论提出了有关隐私、公民自由以及在无处不在的人工智能监控世界中滥用的可能性等重大问题。原创 2024-09-17 13:41:50 · 192 阅读 · 0 评论 -
DepthCrafter:为开放世界视频生成一致的长深度序列
动机。尽管在静态图像的单目深度估算方面取得了重大进展,但由于开放世界视频在内容、运动、摄像机移动和长度等方面存在极大差异,因此估算开放世界视频的深度仍然具有挑战性。我们提出了一种创新方法–DepthCrafter,用于为开放世界视频生成具有复杂细节的时间一致性长深度序列,而无需摄像机姿势或光流等任何补充信息。DepthCrafter 通过精心设计的三阶段训练策略,利用编译好的成对视频深度数据集,从预先训练好的图像到视频扩散模型训练视频到深度模型,从而实现对开放世界视频的泛化能力。原创 2024-09-17 07:22:08 · 1106 阅读 · 0 评论 -
Jina AI 发布 Reader-LM-0.5B 和 Reader-LM-1.5B:为网络数据处理提供多语种、长语境和高效小语言模型,彻底改变 HTML 到 Markdown 的转换方式
Jina AI 发布了两个小型语言模型:Reader-LM-0.5B 和 Reader-LM-1.5B。这两个模型经过专门训练,可以将原始 HTML 转换为标记符,而且都是多语言模型,支持多达 256K 字节的上下文长度。这种处理大型上下文的能力至关重要,因为现代网站的 HTML 内容通常包含比以往更多的噪音,内联 CSS、JavaScript 和其他元素都会使标记数大幅增加。大型语言模型以计算要求高而著称,而像 Reader-LM 这样的小型语言模型则旨在提供高效的性能,而无需昂贵的基础设施。原创 2024-09-16 07:00:00 · 1176 阅读 · 0 评论 -
Google宣布所有英语语种的Gemini Live用户现可免费使用
Gemini Live是对标ChatGPT最新上线的Advanced Voice模式,可以提供移动对话体验,采用增强型语音引擎,能够展开更连贯、有情感表达力和逼真的多轮对话。Google预计也将逐步以Gemini Live,取代原有的Google助理,再过一阵子,就会开放免费使用中文等更多语言的Gemini Live了。谷歌在Pixel 9系列手机的发布会上,同步推出了Gemini Live,该服务提供了一种移动对话体验,让用户和Gemini展开自由流畅的对话。原创 2024-09-15 18:59:42 · 236 阅读 · 0 评论 -
微软发布Windows Agent Arena 为生成式AI代理提供基准测试
在 Windows Agent Arena 中与 AI 代理进行测试的应用程序列表包括Microsoft Edge 和Google Chrome 浏览器等网页浏览器、文件资源管理器设置等操作系统功能、Visual Studio Code 等编码应用程序、记事本、时钟和画图等简单的预装 Windows 应用程序,甚至还包括使用 VLC 播放器观看视频。有了 Windows Agent Arena 这样的基准,对创建人工智能代理来说将是一个巨大的发展,这样它们就能得到改进,表现得更接近人类的水平。原创 2024-09-15 12:12:11 · 734 阅读 · 0 评论 -
国家网信办就人工智能生成合成内容标识征求意见
国家互联网信息办公室发布《人工智能生成合成内容标识办法(征求意见稿)》,该办法根据《中华人民共和国网络安全法》、《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》、《生成式人工智能服务管理暂行办法》等法律法规制定,意见反馈截止时间为2024年10月14日。《办法》明确了人工智能生成合成内容的定义,包括文本、图片、音频、视频等信息,并区分了显式标识和隐式标识两种形式。显式标识是在内容或交互界面中明显呈现的标识,而隐式标识则是通过技术手段在内容文件数据中添加的不易被用户感知的标识。原创 2024-09-14 18:31:18 · 657 阅读 · 0 评论 -
OpenAI 全新 o1 模型上线 Cursor,开发者们欢呼!
GitHub 的 CEO Thomas Dohmke 在社交媒体上分享了一段视频,展示了 GitHub C o p i l o t 在 VS Code 中与 OpenAI 的 o1模型配合使用的效果,他对此评价非常高,称其 “真的是太牛了”。与此同时,微软也在积极升级 VS Code 的功能,以增强与 Cursor 的竞争力。另外,Cognition Labs 的 Devin 创建者也与 OpenAI 紧密合作,评估了 o1模型的推理能力。他们发现,这一系列新模型对于处理代码的智能系统有着显著的改进。原创 2024-09-14 18:26:37 · 476 阅读 · 0 评论 -
谷歌的 DataGemma 人工智能是一个统计精灵
谷歌正在扩大其人工智能模型家族,同时解决该领域的一些最大问题。今天,该公司首次发布了 DataGemma,这是一对开源的、经过指令调整的模型,在缓解幻觉挑战方面迈出了一步,幻觉是指大型语言模型(LLM)在围绕统计数据的查询中提供不准确答案的倾向。为当今人工智能创新提供动力的大型语言模型(LLM)正变得越来越复杂。这些模型可以梳理大量文本并生成摘要,提出新的创意方向,甚至起草代码。然而,尽管这些能力令人印象深刻,LLM 有时也会自信地呈现不准确的信息。原创 2024-09-15 06:45:00 · 1056 阅读 · 0 评论 -
FishAudio发布了 Fish Speech V1.4
而 Fish Speech V1.4 是一个领先的文本到语音(TTS)模型,它是在 700,000 小时的多语言音频数据基础上训练出来的。该模型支持八种语言,包括英语、汉语、德语、日语、法语、西班牙语、韩语和阿拉伯语,是多语言文本到语音转换的强大工具。还记得今年OpenAI 刚推出 gpt4o 不久,开源界就出现了 ChatTTS 和 FishSpeech 这些不错的 TTS 项目。原创 2024-09-15 06:15:00 · 216 阅读 · 0 评论 -
腾讯联合多所高校出品!AI游戏生成模型 GameGen-O 轻松生成高质量游戏元素
在实际的游戏生成过程中,GameGen-O 不仅支持角色和环境的生成,还能设计各种动作和事件,让玩家体验到生动的游戏场景。GameGen-O 的开发是一个从零开始的庞大工程。研究团队表示,虽然 GameGen-O 并不是一个完全可玩游戏,但它为开发者提供了一个极好的工具,让他们可以快速制作原型,并测试不同的游戏元素,省去了从零开始构建的麻烦。GameGen-O 的功能不仅仅限于生成高质量的游戏内容,它还模拟了多种游戏引擎的特性,能够创造出丰富多样的游戏元素,比如角色动态环境、复杂的动作以及各种事件。原创 2024-09-14 11:13:03 · 279 阅读 · 0 评论 -
Upstage 将发布新一代 LLM “Solar Pro “预览版
Solar Pro 是最智能的 LLM,经过优化可在单 GPU 上运行,性能超过微软、Meta 和谷歌等科技巨头的模型。加州圣何塞2024年9月11日电 /美通社/ – Upstage 今天宣布发布其下一代大型语言模型 (LLM) Solar Pro 的预览版。加州圣何塞2024年9月11日电 /美通社/ – Upstage 今天宣布发布其下一代大型语言模型 (LLM) Solar Pro 的预览版。原创 2024-09-14 06:30:00 · 1040 阅读 · 0 评论 -
元象发布中国最大MoE开源大模型
元象XVERSE发布中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升,同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。元象「高性能全家桶」系列全部开源,无条件免费商用,让海量中小企业、研究者和开发者能按需选择。原创 2024-09-14 06:15:00 · 483 阅读 · 0 评论 -
AI新时代揭幕 会“思考解题逻辑”的OpenAI推理大模型登场
OpenAI表示,对于复杂推理任务而言,新模型代表着人工智能能力的崭新水平,因此值得将计数重置为1,给它一个有别于“GPT-4”系列的全新名号。OpenAI确认,这里展示的并不是原始的思维链,而是“模型生成的摘要”,公司也坦率承认这里有保持“竞争优势”的因素。根据测试,o1模型在国际数学奥林匹克的资格考试中,能够拿到83%的分数,而GPT-4o只能正确解决13%的问题。不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个新模型也有局限性。原创 2024-09-13 09:58:58 · 649 阅读 · 0 评论 -
啊?不会这就是草莓吧?OpenAI发布最新模型——OpenAI o1-preview
解决难题的全新系列推理模型。9.12 开始提供我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。与以前的科学、编码和数学模型相比,它们可以推理复杂的任务,解决更难的问题。今天,我们将在 ChatGPT 和我们的应用程序接口中发布该系列的第一个模型。这是一个预览版,我们期待定期更新和改进。在发布此版本的同时,我们还将对目前正在开发中的下一次更新进行评估。原创 2024-09-13 08:16:23 · 1310 阅读 · 0 评论 -
Adobe 将推出人工智能视频模型 Firefly 视频模型: 最长 5 秒,支持视频编辑
最近,Adobe 发布了一款全新的创意工具–Adobe Firefly 视频模型。这一创新工具标志着 Adobe 在现有 Firefly 生成式人工智能图像模型的基础上,大胆涉足人工智能生成视频领域。Adobe 表示,该模型是经过道德训练的,使用的数据都是该公司拥有或允许使用的,确保了生成内容的安全性。不过,Adobe Stock 上的一些创作者表示了异议,他们认为自己上传的作品并不是用来训练人工智能模型的,甚至有可能与自己的风格形成竞争。原创 2024-09-13 06:30:00 · 955 阅读 · 0 评论 -
甲骨文发布全球首个采用英伟达™(NVIDIA®)Blackwell GPU的Zettascale人工智能超级计算集群
英伟达™(NVIDIA®)副总裁伊恩-巴克(Ian Buck)表示,英伟达™(NVIDIA®)的全栈人工智能计算平台与甲骨文的云服务相结合,将以前所未有的规模提供人工智能计算能力。与此同时,埃隆-马斯克(Elon Musk)的人工智能初创公司 xAI 也在建设自己的数据中心,计划使用 10 万颗英伟达(NVIDIA)芯片,这表明他对速度和基础设施控制的重视。甲骨文的人工智能超级计算机不仅在规模上处于领先地位,而且还提供灵活、可扩展和高度安全的人工智能基础架构,使其成为其他云服务提供商无法比拟的。原创 2024-09-13 06:30:00 · 442 阅读 · 0 评论 -
GPT“草莓”项目:推理能力翻倍 定价200美元?
事情的起因可以追溯到“Q*”的初步测试阶段,当时项目展示了在解决数学和科学推理问题上的惊人成果,特别是在一些复杂的多步骤问题上,模型的表现超越了现有的大模型。OpenAI 将在未来两周内推出“草莓”的消息,无疑引起了业内的广泛关注,因为这不仅是 OpenAI 在大语言模型领域的新尝试,也可能是对人工智能推理能力一次新的革命性提升。相比现有的 GPT-4 系列模型,“草莓”被寄予了厚望,可以帮助 AI 更好地模仿人类的思维过程,尤其是在数学和科学领域表现突出,成功解决了此前困扰大模型的多步骤推理问题。原创 2024-09-12 07:38:07 · 647 阅读 · 0 评论 -
Mistral 发布首款多模态模型 Pixtral 12B
法国人工智能初创公司Mistral发布了首款可处理图像和文本的模型。该模型名为 Pixtral 12B,拥有 120 亿个参数,大小约为 24GB。参数大致相当于模型解决问题的能力,参数越多的模型通常比参数越少的模型性能越好。新模型建立在 Mistral 的文本模型 Nemo 12B 上,可以回答关于任意数量、任意大小的图片的问题,这些图片可以是图片 URL,也可以是使用二进制文本编码方案 base64 编码的图片。原创 2024-09-12 07:26:58 · 1850 阅读 · 0 评论