【AIGC半月报】AIGC大模型启元:2024.12(上)
- (1)OpenAI-12日发布会(持续更新中........)
- Day01-12.07:o1满血版上线(已发布)
- Day02-12.08:强化微调(Reinforcement Fine-Tuning)(已发布)
- Day03-12.09:ChatGPT+高级语音功能+增强视觉(已发布)
- Day04-12.10:SoRA(已发布)
- Day05-12.11:ChatGPT Canvas(已发布)
- Day06-12.12:iOS深度集成ChatGPT(已发布)
- Day07-12.13:GPT-4o视频通话(已发布)
- Day08-12.14:Projects in ChatGPT(已发布)
- Day09-12.15:ChatGPT搜索功能(已发布)
- Day10-12.16:满血版o1(已发布)
- Day11-12.17:AI Agent(已发布)
- Day12-12.18: o3发布(已发布)
- (2)Llama 3.3-70B(Meta)
- (3) AIMv2(Apple)
- (4) Star Attention(Nvidia)
- (5) MiniCPM 3.0(面壁智能)
- (6)GLM-4V-Flash(智谱华章)
(1)OpenAI-12日发布会(持续更新中…)
Day01-12.07:o1满血版上线(已发布)
整个发布会仅持续不到15分钟,但包含了巨大的信息量:相比preview版本,满血o1的数学和代码能力均大幅提升,Pro版则是再上一层楼。满血版推理速度更快,比preview快了60%。网友们期待的多模态推理,满血版o1也安排上了。
而满血o1的另一大亮点就是支持多模态输入,具备视觉推理能力,团队也进行了现场展示。
参考博客:
OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费:1450元/月
新o1登顶中文链式推理基准,总分76.12分,速度提升41%
Day02-12.08:强化微调(Reinforcement Fine-Tuning)(已发布)
新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。少到什么程度呢?最低几十个例子就可以。CEO奥特曼表示“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”
这次发布的主题虽然和普通人没什么关系,但是给领域垂直模型、小型化模型等开辟巨大的想象空间。在现有模型基础上,花费有限算力和数据做增强改进,训练出一个更强的模型。未来很快,就会出现各个领域的o1模型。
前有OpenAI已经搞定一个强基模型,加上一些高质量的推理问题数据集(不需要正确的推理过程,只要有正确的答案就行),任何人都可以通过Reinforcement Learning Fine-tuning,在现有强大的推理模型基础上训练出推理能力更强的模型。或者,蒸馏出一个更紧凑的小模型,有了领域私有数据和业务逻辑复杂的推理数据集,训出表现更好领域模型。
- 微调后的o1-mini模型得分提高80%,直接反超o1正式版。
- 目前OpenAI已开启强化微调研究计划,开发者可以申请强化微调API的alpha版本访问权限。
- 进行测试时,可使用几十到几千个高质量数据,模型能够通过强化学习自行探索和学习如何推理复杂任务。
强化微调(Reinforcement Fine-Tuning,简称ReFT)
一种全新(区别于之前的监督微调)的模型定制技术,允许开发者通过数十到数千个高质量任务的数据集,对模型进行针对性优化,并根据提供的参考答案对模型的响应进行评分,使AI在特定领域的复杂任务中表现得更为精准。
参考博客:
OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜
OpenAI Day2:支持微调o1, 核心技术竟更早来自字节跳动!「强化微调」技术分析
Day03-12.09:ChatGPT+高级语音功能+增强视觉(已发布)
增强ChatGPT的高级语音模式,增加视觉功能。
Enhancement of ChatGPT’s Advanced Voice Mode with vision capabilities.
ChatGPT的高级语音模式迎来了视觉功能的加持!这一突破性的升级无疑会让我们与AI助手的互动体验更上一层楼。
- 语音配视觉,ChatGPT秒变全能助手
还记得第二天发布会上那个圣诞老人般慈祥的声音吗?今天,OpenAI给这个声音加上了“眼睛”!没错,现在的ChatGPT不仅能听懂你说什么,还能看懂你给它看的东西。这简直就是给AI装上了人类的感官,让它更接近于一个全方位的智能助手。 - 视觉识别能力大跃进,AI眼中的世界更清晰
据OpenAI透露,这次更新的视觉识别能力已经达到了前所未有的高度。无论是复杂的图表、精细的艺术作品,还是日常生活中的随手拍,ChatGPT都能快速准确地识别并进行分析。 - 语音视觉双管齐下,AI应用场景无限延伸
这次更新最令人兴奋的,莫过于语音和视觉功能的无缝结合。这意味着ChatGPT不再局限于文字交互,而是可以进行更加自然、流畅的多模态对话。
教育领域的专家们已经开始畅想未来:学生可以对着课本提问,ChatGPT不仅能听懂问题,还能"看"到课本内容,给出更加精准的解答。医疗行业的从业者则期待着AI能够通过分析X光片和CT扫描结果,辅助医生做出更准确的诊断。 - 隐私保护别担心,OpenAI早有妙招
当然,随着视觉功能的加入,隐私问题自然成为了大家关注的焦点。对此,OpenAI表示他们已经采取了严格的数据保护措施。所有上传的图像数据都会经过严格的加密处理,并且不会用于训练模型。用户可以随时删除已上传的图像,OpenAI承诺会在24小时内彻底清除相关数据。
参考博客:OpenAI Day12 第3天直播:增强 ChatGPT 的高级语音模式与视觉功能发布!
Day04-12.10:SoRA(已发布)
视频生成大模型 Sora 正式版终于露面!同时,OpenAI 开发了 Sora 的新版本 ——Sora Turbo,它比二月份的预览版模型快得多。今天该版本将作为独立产品提供给 ChatGPT Plus 和 Pro 用户。
Sora 用户可以生成 1080p 分辨率、最长 20 秒、宽屏、竖屏或方形的视频。并且用户可以利用资源进行扩展、remix 和融合,或者基于文本生成全新的内容。OpenAI 开发了全新的界面,让使用文本、图像和视频来提示 Sora 变得更加容易,同时故事板工具让用户可以精准地指定每个帧的输入。
体验地址: https://sora.com/onboarding
参考博客: 刚刚,OpenAI Sora正式炸裂登场,网页挤爆了!
Day05-12.11:ChatGPT Canvas(已发布)
在文档世界里搞“写作黑科技”
还记得那些被 Google Doc 编辑框憋住创意的夜晚吗?OpenAI 给出的新工具 Canvas,直接在写作和编程体验上“开了光”。
- 文案编辑功能:
从写作到编辑,一站式支持。在 Canvas 界面中,左边的提示和右边的实时更新,仿佛让你拥有一个 24 小时待命的“写作合伙人”。它甚至能从物理老师视角给你留言,帮助你的文字更具逻辑说服力。 - Python 编程功能:
更劲爆的是,它还在代码界开了挂——直接让你在 Canvas 窗口中跑 Python 脚本。遇到错误?只需点击“修复错误”,ChatGPT 不仅帮你解决,还会用一种“老师耐心讲题”的方式展示它的思路。
参考博客: :openai 第4天活动内容:ChatGPT Canvas新功能上场
Day06-12.12:iOS深度集成ChatGPT(已发布)
ChatGPT,让Apple Intelligence能看见了
这次Apple Intelligence对ChatGPT的深度整合主要包含三个方面:
首先是与Siri的协同。当Siri判断某个任务可能需要ChatGPT的协助时,它可以将任务移交给ChatGPT处理;
其次是写作工具的增强,用户现在可以使用ChatGPT从头开始撰写文档,还能进行文档细化和总结;
第三是iPhone 16的相机控制功能,它能够通过视觉智能让用户更深入地了解拍摄对象。
在实际演示环节,McDon展示了如何在iPhone上启用这些功能。用户需要首先进入设置,启用Apple intelligence和Siri,然后开启新的ChatGPT扩展。
用户可以选择登录ChatGPT账号,系统还提供了确认ChatGPT请求的选项,确保用户对数据分享有完全的控制权。
参考博客: OpenAI直播第五天:OpenAI正式成为苹果AI的“贤内助”
Day07-12.13:GPT-4o视频通话(已发布)
1. 实时视频通话。
能实时对话,能理解你的连续性动作,能知道你在干啥。也有记忆。
比如你跟他聊桌子上的一杯冰美式咖啡,这杯冰美式长的无头六臂奇奇怪怪颜色还是红色的,你们聊的很开心,然后切到了另一个话题,过了一分钟后,你突然问他,咱们刚才聊的咖啡是啥颜色。它会很准确的告诉你,是红色。就像,AI第一次,有了跟人类一样的眼睛。
2. 实时理解屏幕。
一个基于实时视频理解的变种。
只不过一个是通过摄像头,看外部的现实世界,一个是通过类似于屏幕共享的方式,让它来看你的屏幕。
3. 圣诞老人限定语音。
一个挺抽象的更新,在高级语音里面,新加了一个新的音色。叫Santa。其实就是个,圣诞老人的语音。
参考博客:OpenAI全量上线4o视频通话
Day08-12.14:Projects in ChatGPT(已发布)
ChatGPT终于也推出Projects功能,却故意露出一个“AGI”的项目,可整合ChatGPT的各项功能,便于创建及管理项目。
Projects的功能就是按照项目来组织和管理文件,正如官方介绍的那样:
- Projects将聊天记录、文件和自定义指令集中在一个地方。
- 你可以用它们进行持续性的工作,或者仅仅是让它们变得井然有序(看着干净、整洁)。
参考博客: ChatGPT终于也推出Projects功能,却故意露出一个“AGI”的项目
Day09-12.15:ChatGPT搜索功能(已发布)
OpenAI送上新王炸!ChatGPT搜索全球上线,新增实时搜索和高级语音
OpenAI宣布,ChatGPT搜索正式全球落地,包括免费用户都登陆即可使用。同时,OpenAI对ChatGPT的搜索功能进行了大量更新。
新增的功能包括:
- 实时搜索,OpenAI对搜索的算法进行了深度优化,可在用户提出问题后获取实时内容(分钟级别),包括股票、新闻等。
- 高级语音,在高级语音模式下,用户可以与ChatGPT进行更自然的多轮搜索对话,更像是一位语音搜索管家;移动端优化,用户可以在安卓、iOS、平板等移动端更好地使用搜索功能,效率提升40%以上。
- 地图集成,现在ChatGPT集成了全新的地图功能,用户可以直接在搜索结果中查看周边地理位置信息,进行路线规划和地点探索。这个功能估计是要朝着商业模式发展,以后会与餐厅、商城一类的进行商务合作。
用户可以登陆ChatGPT的官网也可以在移动端激活ChatGPT,在对话中点击网络搜索图标Search,启动搜索功能,GPT可呈现对用户所提出问题的搜索结果。
在ChatGPT的对话中启用搜索功能意味着,用户可以直接在对话中观看搜索到的视频,比如在旧金山下雨时,用户想搜一搜有什么适合全家去看的电影,想看《狮子王》,就搜到了《狮子王》的预告片,用户可以在和GPT对话的状态下看预告片。
不同于10月,OpenAI展示的一个ChatGPT搜索新功能是,用户可以设置默认搜索引擎,优先呈现特别指向某些网站链接的结果,比如指向奈飞(Netflix)或Bookingsc.om等旅行预订网站网页的结果。
OpenAI还展示了,用户可以在和GDP对话中要求查询比如在旧金山Mission地区的墨西哥风味餐厅,在GTP给出一些包括图片在内搜索结果后,又补充说,想要可以提供户外烧烤的餐厅,GPT又会在此基础上提供新的搜索结果,并且可以在手机上查看餐厅相关地图。
参考博客: OpenAI送上新王炸!ChatGPT搜索全球上线,新增实时搜索和高级语音
Day10-12.16:满血版o1(已发布)
满血版o1震撼上线了!它首次将多模态和新的推理范式结合起来,更智能、更快速。同时推出的还有200美元/月的专业版ChatGPT Pro。奥特曼亲自和Jason Wei等人做了演示,同时放出的,还有49页完整论文。据网友预测,GPT-4.5可能也要来了。
果不其然,满血版o1终于正式上线了,而且还带来了地表最强o1 Pro Mode!
完整版o1是一个更快、更强大的推理模型,更擅长编码、数学和写作。
它可以上传图片,根据图片进行推理,给出更详细、更有用的回复。
在多项基准测试中,完整版o1性能直接暴涨,在数学、代码、博士级别科学问题中,拿下了最优的成绩。
相较于o1-preview,o1数学性能提升了近30%,代码能力提升了27%。再看GPT-4o,几乎没有任何优势了。
更值得一提的是,o1在GPQA Diamond基准测试中,表现完全超越了人类专家。
参考博客:
满血版o1深夜上线,奥特曼演示超强推理!终极Pro版每月1450元
谷歌版o1模型发布:霸榜排名第一,深度展示思维链
Day11-12.17:AI Agent(已发布)
作为 AI 的领导者,OpenAI 早早就将通往 AI 最终形态 AGI(Artificial General Intelligence, 通用人工智能)的路线划分为五个阶段:
- 基础 AI(Emerging AGI):AI 发展的初级阶段,指能够进行基本对话和信息处理的 AI,如ChatGPT。强依赖于预训练的数据集,AI 本身的“智商”(理解和推理能力)非常有限;
- Reasoners(推理者):基本 AI 的进阶版本,具备高级的逻辑推理和对复杂问题的解决能力;
- Agents(代理):AI 开始具备在没有人类输入的情况下创建内容或执行操作的能力,或者至少在人类的指导下执行。当前大多数 AI Agent 还处于比较初级的阶段,主要通过规划、推理和工具调用来完成一些基础 AI 无法完成的复杂任务;
- Innovators(创新者):这一阶段的 AI 不仅能解决现有问题,还能进行自主研究和开发,在学习中创新和进化,形成一个良性的循环,越来越接近我们人类了;
- Organizations(组织机构): AGI 的最终阶段,这种 AI 系统能够智能分配任务,协同工作,完成复杂的任务,类似于一个团队或组织,获得 1+1 大于 2 的效果。
如果说 ChatGPT 处于上述阶段中的第一阶段,那么最近推出的推理模型 o1 一定能够被划分到第二阶段。o1 模型在处理物化生等复杂学科的高难度任务上,表现几乎与博士生相当。在数学领域,更是在国际数学奥林匹克(IMO)考试中达到了惊人的 83% 正确率,作为对比,GPT-4o 只能正确解决 13% 的问题。
然而,就当用户的目光都还放在 o1 等第二阶段上时,OpenAI 已经将“触手”悄然伸向了第三阶段:Agents。OpenAI 正在将 AI Agent 作为下一阶段“王牌”,作为 Next Big Thing 一步步向前推进,同时制定了明确的发布时间——2025 年。
“Agent 将成为下一个重大突破” —— OpenAI CEO Sam Altman
“让 GPT 自主执行任务将是明年一大重点” —— OpenAI CPO Kevin Weil
明年 AI Agent 将会成为各个 AI 巨头间的厮杀重点,OpenAI 的强劲对手,前有 Anthropic 发布的 Computer Use,后有谷歌将在 12 月推出名为 Jarvis 的 AI Agent。
Day12-12.18: o3发布(已发布)
o3 实践意义上证明了,对于编程这种能良好的形式化定义任务 reward 以及轻易拿到过程数据的任务,通过对 RL 范式的 scale up,它的上限可以被持续拉高,直到成为世界上最顶级的程序员之一。
理论上 AI 是不可能在训练阶段见过这些赛题的。这个 Elo 分数和排行榜排名对于反映 AI 与人类程序员相比的真实编程水平有很强的参考意义。
那么, o3 在这个竞赛中排名 175 名是什么概念呢?
目前这个竞赛,有 168076 名来自全球各地的程序员参赛。
这意味着 o3 已经在编程竞技中击败了世界上 1-175/168076=99.9% 的程序员。
要知道,几个月前大火的 GPT-4o,在这个竞赛中,仅仅打败了世界上 11% 的程序员
o3 的发布,将是冲击码农岗位需求和薪资的里程碑事件。
如果说,codeforce 里面反映的是 AI 和人类解决困难算法问题的能力,那么,SWE-bench 则是直接反映 AI 解决真实软件工程的能力(测试 AI 模型自动解决 GitHub 问题的能力)。
SWE-bench 挑战 AI 模型根据给定的 Github 代码库(codebase)和问题描述(issue)生成相应的代码补丁(patch)来解决问题。这个测试平台不仅关注算法解题能力,而且更全面地评估 AI 模型在实际软件工程任务中的表现,包括但不限于代码缺陷检测、代码质量评估、代码变更预测等。其中,SWE-bench Verified 是 SWE-bench 的一个经过五年经验码农人工验证的子集,由 OpenAI 发布。这个子集包含了 500 个样本。
参考博客: o3 发布了,摔碎了码农的饭碗
(2)Llama 3.3-70B(Meta)
2024.12.07 Meta刚刚发布了其最新模型:Llama 3.3-70B,性能提升,输入成本比Llama 3.1 405B降低10倍!指令遵循能力超过了GPT-4o、Claude 3.5 Sonnet。Llama 3.3-70B是一个预训练和指令调优的多语言LLM,专门针对多语言对话场景进行了优化。70B参数,128K上下文。支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语泰语8种语言,有意思的是Llama 3.3-70B不支持中文,这是小扎防止我们直接COPY打小抄么?。它的通用能力强,多语言支持好,某些指标不如Claude 3.5等模型,数学和推理上有提升空间,总的来说是一个具备性价比的模型,比较适合构建全球业务服务支持聊天机器人等。
模型架构:
- Llama 3.3是一种自回归语言模型,采用优化的Transformer架构。调整后的版本使用有监督微调(SFT)和基于人类反馈的强化学习(RLHF),以使其符合人类对有用性和安全性的偏好。
- 支持的8种语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。(有意思的是不支持中文,这是小扎防止我们直接COPY哈)
- 模型发布日期:70B指令模型:2024年12月6日
- 状态:这是一个在离线数据集上训练的静态模型。随着我们根据社区反馈改进模型安全性,调整后的模型未来版本将陆续发布。
- 许可证:可在https://github.com/meta - llama/llama - models/blob/main/models/llama3_3/LICENSE获取自定义商业许可证Llama 3.3社区许可证协议。
参考博客: Meta发布了其最新模型:Llama 3.3-70B
(3) AIMv2(Apple)
2024.12.07 当前的许多模型在处理多样化的视觉任务或适应新数据集时仍显吃力。传统的大规模预训练视觉编码器虽然取得了成功,但在扩展性和参数效率方面存在挑战。市场急需一种强大而多功能的模型,能够在不牺牲性能的情况下处理多种模态,如图像和文本,同时不需要大量的数据筛选。
苹果公司通过发布AIMv2,迎接了这一挑战。AIMv2是一系列开放式视觉编码器,旨在提升现有模型在多模态理解和目标识别任务上的表现。受CLIP等模型的启发,AIMv2增加了自回归解码器,使其能够生成图像块和文本标记。AIMv2家族包含19个不同参数大小的模型——从300M到2.7B,支持224、336和448像素的分辨率。这种模型大小和分辨率的范围使得AIMv2适用于不同的应用场景,从小型应用到需要大型模型的任务。
AIMv2采用了多模态自回归预训练框架,这一框架在传统对比学习方法的基础上进行了构建。AIMv2的关键特性是将视觉变换器(ViT)编码器与因果多模态解码器相结合。在预训练期间,编码器处理图像块,随后与相应的文本嵌入配对。因果解码器然后自回归地生成图像块和文本标记,重建原始的多模态输入。这种设置简化了训练过程,并促进了模型的扩展,而无需特殊的批次间通信或极大的批次大小。此外,多模态目标使AIMv2能够实现比其他方法更密集的监督,增强了其从图像和文本输入中学习的能力。
AIMv2在大多数多模态理解基准测试中超越了OAI CLIP和SigLIP等主要现有模型。具体来说,AIMv2-3B在冻结树干的情况下,在ImageNet数据集上达到了89.5%的top-1准确率,显示出冻结编码器模型的显著鲁棒性。与DINOv2相比,AIMv2在开放词汇目标检测和指代表达理解方面也表现良好。此外,AIMv2的可扩展性显而易见,其性能随着数据和模型大小的增加而持续提高。模型的灵活性和与现代工具(如Hugging Face Transformers库)的集成,使其在各种应用中的实施变得实用且直接。
参考博客:Apple 发布 AIMv2:最先进的开放集视觉编码器系列
(4) Star Attention(Nvidia)
2024.12.05 当下的手机及AIPC中都会安装本地大模型,然而上下文长度增加,推理时的计算成本也会显著增长。最明显的一个后果就是,用户输入问题后需要等待很久才能看到结果。为此,已有多种优化方案提出,例如Flash Attention,而11月26日英伟达提出的Star Attention机制,可用于提升Transformer模型在处理长序列时的效率和准确性。值得一提的是,这篇文章受到了广泛的关注,登顶Hugging Face每日论文榜首。
在了解Star Attention如何改进大模型推理前,让我们先看看当前大模型的推理过程涉及的两个步骤:
- 1)prompt编码,即模型处理输入并在缓存中存储KV(键值)向量;
- 2)token生成,即模型关注KV缓存并自回归生成新令牌,同时用新 的KV向量更新缓存。
在许多长上下文任务中,输入由一个长上下文后跟一个短查询和一个短答案组成。当大模型的上下文变得越来越长之后,回答查询所需的信息通常局限在上下文的小部分内,意味着上下文只需关注附近的token,而查询token需要关注所有之前上下文涉及的内容。
Star Attention带来的性能提升,主要体现在以下两个方面: - 1)高达11倍的加速
在多个长上下文基准测试上,Star Attention所加持的8B Llama3的推理速度显著提升,随着序列长度增加,加速比从1.1x提升到2.7x。而在参数量更大的Llama3.1-70B上,推理的加速比提升更为显著。 - 2)对比采用全局注意力的基准,Star Attention相对准确率的降低只在0~3%范围内。
在更长的上下文尺度(128K)中,上下文编码过程中不同块的大小,也会影响推理的准确性和速度。块尺寸越大,Star Attention 的准确性越高。
参考博客:英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
论文地址: https://arxiv.org/abs/2411.17116
(5) MiniCPM 3.0(面壁智能)
2024.12.06 “ 端侧模型正成为一个备受关注的技术前沿。面壁智能发布的MiniCPM 3.0,以其4B参数量在性能上逼近GPT-3.5,更在端侧部署上实现了技术突破。这款小而强大的模型,不仅为移动设备智能化提供了全新可能,也为人工智能的轻量化和普及性开辟了更广阔的想象空间。”
近日面壁智能发布了旗舰端侧模型“小钢炮”系列的MiniCPM 3.0基座模型。MiniCPM 3.0是一款4B大小的模型,在自然语言理解、知识、代码、数学等能力上可达到GPT-3.5水平。
4B参数量的 MiniCPM 3.0 在多数评测集上的效果比肩甚至超越众多 7B-9B 模型。这款可以跑在手机硬件条件下的大模型,有着以下特点:
- 支持工具调用🛠️(Function Calling)和代码解释器💻(Code Interpreter):Berkeley Function Calling Leaderboard (BFCL) 上取得 9B 规模以下 SOTA,超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。
- 超强的推理能力🧮:数学能力方面,MathBench 上的效果超越 GPT-3.5-Turbo 以及多个 7B-9B 模型。在非常具有挑战性的 LiveCodeBench 上,效果超越 Llama3.1-8B-Instruct。
- 出色的中英文指令遵循能力🤖:英文指令遵循 IFEval、中文指令遵循 FollowBench-zh 效果超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。
- 长文本能力:原生支持 32k 上下文长度,32k 长度内大海捞针全绿。提出 LLM x MapReduce ,理论可处理的上下文长度达到 +∞。
- RAG能力:随模型发布了 MiniCPM RAG 套件。基于 MiniCPM 系列模型的 MiniCPM-Embedding、MiniCPM-Reranker 在中文、中英跨语言检索测试中取得 SOTA 表现;针对 RAG 场景的 MiniCPM3-RAG-LoRA 在开放域问答等多项任务上超越 Llama3-8B、Baichuan2-13B 等模型。
通过量化技术,该模型的内存需求被优化至仅 2GB,就很适合在端侧(移动端)环境中部署。
- 在代码能力、功能调用、数学推理、中英文指令遵循多个评测集的表现上,MiniCPM 3.0 以 4B 的小参数量表现优异。多项评测得分接近或者超过 GPT-3.5。
- 总体而言,面壁智能在MiniCPM 3.0上降低了参数并提升了性能。
- 长文本能力:在 32k 的上下文长度进行大海捞针测试,结果如下图,在多个长度长文本的测试表现都是全绿:
参考博客:仅4B参数!面壁端侧模型MiniCPM 3.0达到GPT-3.5水平
GitHub仓库: https://github.com/OpenBMB/MiniCPM
HuggingFace模型库: https://huggingface.co/openbmb/MiniCPM3-4B
知识库: https://modelbest.feishu.cn/wiki/D2tFw8Pcsi5CIzkaHNacLK64npg
(6)GLM-4V-Flash(智谱华章)
2024.12.09 继 8 月语言模型 GLM-4-Flash 免费后,我们秉承技术领先、技术普惠的理念,在今天上线备受期待的第一款免费的多模态模型——GLM-4V-Flash。GLM-4V-Flash 不仅基于 4V 系列模型的各项优秀能力,更在图像处理上实现了精确度的提升。这一多模态免费模型将进一步降低开发者在各个领域深入挖掘大模型的门槛,开启大模型应用的新篇章。
我们期待更多的开发者们汇聚智谱开放平台 BigModel,利用 GLM-4V-Flash 在图像精准处理方面的优势,将模型的基础能力转化为实际应用场景。无论是在信息提取、内容创作,还是图片识别等领域,GLM-4V-Flash 都能显著提高工作效率和用户体验。此外,我们也鼓励独立开发者和学生群体发挥创意,利用 GLM-4V-Flash 开发出更多图像理解、内容生成相关的创新应用,共同丰富和拓展大模型的应用生态!
GLM-4V-Flash 模型拥有图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分析等高级图像处理功能,并且支持包括中文、英语、日语、韩语、德语在内的26种语言。
在企业应用中,GLM-4V-Flash 能够针对特定垂直行业提供精准的场景解决方案,以低成本投入助力开发者迅速融入大模型时代,无需顾虑大模型图像处理的高昂成本。
参考博客: 首个免费多模态大模型API:GLM-4V-Flash上线智谱开放平台
体验中心: https://www.bigmodel.cn/console/trialcenter
说明文档: https://www.bigmodel.cn/dev/api/normal-model/glm-4v