1.OpenAI重大发布!
北京时间4月15日凌晨1点,OpenAI进行了技术直播发布了最新模型——GPT-4.1。
除了GPT-4.1之外,还有GPT 4.1-Mini和GPT 4.1-Nano两款模型,在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文,这对于金融分析、小说写作、教育等领域帮助巨大。
图片来源:OpenAI官网截图
当日,OpenAI首席执行官奥特曼表示,GPT-4.1(以及-Mini和-Nano)现已在API中可用。
由于GPT-4.1的发布,OpenAI宣布将会淘汰刚发布不久的GPT-4.5,其能力可见一斑。
目前,如果想体验GPT-4.1而无法通过API身份验证的小伙伴,微软已经在Azure OpenAI上线了该模型,可以使用了。
GPT-4.1最大亮点之一就是支持100万tokens上下文,这也是OpenAI首次发布长窗口模型。
与前代模型相比,GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能够处理多达100万tokens的上下文,是GPT-4o的8倍。
OpenAI在Long Context Evals上对长文本进行了测试,测试结果显示,GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本,无论是开头、中间还是结尾,甚至在长达100万tokens的上下文中,模型依然能够准确地定位目标文本。
OpenAI还在Multi-Round Coreference进行了测试,通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中,用户和助手交替进行对话,用户可能会要求模型生成一首关于某个主题的诗,接着要求生成另一首关于不同主题的诗,然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容,例如“第二篇关于某个主题的短故事”。
测试结果显示,GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o,并且在长达100万tokens的上下文中依然能够保持较高的性能。在编码能力测试中,SWEBench评估将模型置于Python代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1的准确率达到55%,而GPT-4o仅为33%。
该测试中,模型会收到一个代码库和问题描述,然后其需要生成补丁来解决该问题,模型的表现会高度依赖于所使用的提示和工具。
在多语言编码能力测试方面,Ader polyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。
在指令遵循能力测试中,OpenAI构建内部评估体系,模拟API开发者使用场景,测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令,并分难度等级。在困难子集评估中,GPT-4.1远超GPT-4o。
在多模态处理测试的视频MME基准测试中,GPT 4.1对30~60分钟无字幕视频进行理解并回答多项选择题,取得72%的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。
价格方面,GPT-4.1系列在性能提升的同时,价格更具竞争力。GPT-4.1相比GPT-4o价格降低26%,而GPT-4.1 Nano作为最小、最快且最便宜的模型,每百万token的成本仅为12美分。
当地时间4月14日,OpenAI首席执行官山姆·奥特曼在社交平台透露,接下来的一周将发布很多新产品。本月初,他曾表示将在数周内发布o3、o4-mini,未来几月内发布GPT-5。
根据OpenAI在其官网上发布的公告,OpenAI两年前推出的人工智能模型GPT-4将于本月底从聊天机器人ChatGPT中“退役”。OpenAI表示,从4月30日起,GPT-4将被GPT-4o“完全取代”,后者是ChatGPT目前的默认模型。不过,GPT-4仍可通过OpenAI的API使用。
OpenAI写道,“在正面评估中,GPT-4o在写作、编码、STEM等方面一直超过GPT-4。此外,最近的升级进一步改进了GPT–4o的指令遵循、问题解决和会话流程,使其成为GPT-4的自然继承者。”
GPT-4于2023年3月推出,被用于ChatGPT和微软的Copilot聊天机器人。GPT-4模型具有多个版本,还拥有多模态功能,这允许它们同时理解图像和文本。OpenAI首席执行官奥尔特曼当时还表示,GPT-4的规模庞大,培训成本超过1亿美元。
后来在2023年11月,OpenAI推出GPT-4 Turbo模型,这是一种更快且更便宜的模型。
去年5月,GPT-4o被推出,其在多模态功能方面更加强大,据时任OpenAI首席技术官穆拉蒂表示,GPT-4o中的“o”代表了“全能”。
2.研究机构:苹果Q1智能手机销量登顶全球
根据市场研究机构Counterpoint Research周一发布的数据,得益于iPhone 16e的发布以及在日本、印度等国的强劲需求,苹果在今年一季度全球智能手机销量中位居榜首。
数据显示,尽管在美国、欧洲和中国的销售持平或下滑,但苹果仍占据了全球19%的市场份额,紧随其后的是三星,占据18%的市场份额。
这些数据表明,虽然苹果在中国市场因面临华为等本土厂商的竞争以及iPhone缺乏人工智能(AI)功能而销量受挫,但iPhone在新兴市场的需求依然强劲。
另一家研究机构国际数据公司(IDC)的数据显示,全球智能手机出货量在一季度增长了1.5%,其中苹果提前加大供货,以规避美国总统特朗普可能施加的新关税。IDC主要追踪出货量,而非消费者销售状况。
此前有媒体报道称,为了抢在特朗普政府新关税政策生效前将产品运抵美国,苹果包机从印度向美国空运了多达600吨iPhone,约合150万部。
特朗普反复无常的关税政策和不断升级的全球贸易紧张局势,导致过去两周全球金融市场动荡、经济前景恶化,以及通胀压力上升。
苹果是近段时间股价下跌最多的科技巨头之一,由于其供应链在特朗普关税政策的主要打击对象内,该公司股价今年迄今为止下跌了近18%。
美国海关与边境保护局(CBP)上周五发布了更新税则,豁免了包含自动数据处理器、电脑、通信设备、显示器与模组、半导体相关等类别商品的进口税率,不受“对等关税”影响。
这使得苹果有了喘息的空间,受此提振,苹果股价周一大幅上涨。
IDC全球设备跟踪副总裁Ryan Reith表示:“眼下,美国智能手机品牌的重点应是抓住这次豁免机会,尽可能多地生产和出货。”
3.上海交通大学智能传感新硬件:用可穿戴AI系统为盲人导航
4月14日23时许,国际学术期刊《自然-机器智能》在线发表论文报告了一款可以为盲人和部分视力障碍人士提供导航辅助功能的可穿戴系统。
该系统以AI算法为智能核心,通过摄像头拍照来获得图像等视觉信息,然后基于AI算法进行识别、判断和输出,为使用者选择一条无障碍路线,最后在导航提示中,综合提供听觉和左右手部皮肤的触觉等信号,比如骨传导耳机传递简要的声音信号,以及能戴在手腕上的可伸展人造皮肤,能将振动信号传给使用者,以指导移动方向,避开两侧的物体,从而辅助视力障碍人士穿过迷宫,避开障碍物,以及抓取某个物体。
上海交通大学电院清源研究院长聘教轨副教授、博士生导师顾磊磊(左二)和部分实验室成员。受访者供图
上海交通大学电院清源研究院长聘教轨副教授、博士生导师顾磊磊是该论文的通讯作者。
他向澎湃科技表示,“视障人士出行的三件套是墨镜、手杖、导盲犬,这是他们身上的标志。”通过创新的智能硬件,逐渐把这些标志去掉,让他们像有正常视力的人一样生活,这是顾磊磊的目标之一,也是他所理解的“以人为本”。
AI算法的优化和响应需要数据,而实时的数据来自传感器。顾磊磊带领的团队聚焦智能传感领域。
他表示,以前类似的系统,“偏电子,把人当作一台车,来实现导航”,但人的特点是人,不是机器,没办法像机器一样严格地去走一条路线;此外,有些系统把导航转化成语音,“一直在叽里呱啦地响,在使用上不太友好”,同时,为了实现强大的功能,使用者要背着一台电脑,体积大,功耗高,而且笨重。使用者一穿戴上这样的系统,看起来像个机器人,因而难以推广。
顾磊磊介绍,最新发布的系统的目标是提高视障人士的行动能力,能帮助他们走到他们通过语音告诉系统的一个目标位置去,比如门口在哪里;同时根据系统的提示——向前、向左、向右一点,让使用者避开障碍物。新系统总重约200克,由装载了RGB-D(红绿蓝和深度)摄像头的眼镜、两小块人造电子皮肤和一个微型单板计算机——树莓派组成。“其中,最耗电的是树莓派,功率大约3瓦到5瓦。”更重要的是,新系统从拍照到响应、输出的时间是仅200-300毫秒,与人类的反应时间一致,从而与使用者更默契。
为了解决光线不足可能给拍照系统带来的风险,该系统还集成了一个红外探测器,可以“像激光雷达一样”进行主动探测,提供距离、高低等信息。
眼球模型澎湃新闻记者吴跃伟摄
“我们调研后发现,视障人士的基本需求有三个,第一个是明暗变化,比如眼前有没有障碍物;第二个是形状;第三是看到运动的信息,比如面前是不是有东西移动过去。他们没有爬山、游泳那么高的要求,所以我们是一直在做减法。我可以把功能做得很高很强,但那不是我们的最终目的,我们是要它具有人们刚需使用时的合理功能就行。”顾磊磊表示,新系统关注的是使用者面前一米左右范围内的区域。
此外,该系统还提供了一双摩擦供电的智能鞋垫和VR训练平台,让使用者在正式出行前可以在虚拟系统中进行模拟、训练。
对于新系统的局限性,顾磊磊表示,目前属于基础研究阶段,只是进行了少量的测试——一共有20人试用的数据,其中16人是视障人士。该产品如果要投放市场,需要更多的反馈数据,以进行优化。
“说不定我们可以把摄像头换掉。”顾磊磊希望把摄像头整合到隐形眼镜中,取代目前系统中的镜框眼镜,代替手杖,“让使用者尽力看起来像健全人”。
此外,他表示,很重要的一点是,希望未来的类似系统是个性化的,因为每个人关注的东西不一样。而这样的“量身定做”可以基于AI算法的优化来实现。