人工智能
文章平均质量分 86
JasonLiu1919
微信公众号《小窗幽记机器学习》。却顾所来径,苍苍横翠微。个人微信号:onepieceand
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
原生GPT-4o生图OpenAI官方透露了哪些信息?
OpenAI于2025年3月25日发布了GPT-4o(GPT-4o Native Image Generation) 系统卡的增补内容,重点介绍了其全新的原生图像生成方法——4o图像生成。更重要的是,由于4o图像生成原生嵌入在全能的GPT-4o模型架构深处,它能够利用其全面的知识以细致入微且富有表现力的方式实现这些功能,创造出既美观又实用的图像。赋予了它强大的图像处理和理解能力。通过图像到图像的转换、照片级真实感和精确的指令遵循,4o图像生成展现了广泛的应用潜力。4o图像生成的新能力也带来了新的安全风险。原创 2025-04-20 11:07:43 · 1192 阅读 · 0 评论 -
实测Llama 4,究竟是王者归来,还是廉颇老矣?
相比于之前的模型,Llama 4系列模型是混合专家架构(MoE)的多模态模型,能够支持文本和多模态体验(输入支持文本和图片,但是输出结果尚未支持图片)。截至目前(4月6日)官方开放Llama 4系列的两个高效模型的下载。1、。具有16个专家,170亿激活参数,总参数量109B,支持10M长度的上下文(即1000 万上下文窗口)。在广泛报告的基准测试中优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。Llama 4 Scout号称是同类产品中最好的多模态模型。原创 2025-04-20 11:06:20 · 14140 阅读 · 0 评论 -
字节开源地表最强GUI Agent:UI-TARS
UI-TARS是一个原生的 GUI Agent模型, 该模型仅以屏幕截图作为输入,并执行类似人类的交互操作(例如,键盘和鼠标操作)。与依赖于经过大量封装的商业模型(例如 GPT-4o)以及专家精心设计的提示和工作流程的现有Agent框架不同,UI-TARS 是一个端到端的模型,其性能超越了这些复杂的框架。实验表明,UI-TARS 在 10 多个 GUI Agent 基准测试中取得了SOTA。原创 2025-04-19 21:40:47 · 4232 阅读 · 0 评论 -
推理模型专题 | 开源类O1:Marco-o1技术全面解读
阿里国际数字化商业团队(非Qwen团队)提出Marco-o1,该模型不仅关注数学、物理和编程等具有标准答案的学科领域(这些领域非常适合强化学习),还更加注重开放性解决方案。Marco-o1旨在解答一个问题:"o1模型能否有效地推广到那些缺乏明确标准且难以量化奖励的更广泛领域?Marco-o1采用思维链(CoT)微调、蒙特卡罗树搜索(MCTS)、反思机制和创新的推理动作策略,专门针对复杂的现实问题求解任务进行了优化。基于CoT数据的微调。原创 2025-01-19 14:22:35 · 1326 阅读 · 0 评论 -
万字长文细说端侧大模型进展(下篇):AutoGLM类Agent隐私安全有感
本综述全面阐述了设备上语言模型(LLMs)的最新进展,重点分析了模型压缩、高效架构设计和硬件-软件协同优化等领域的突破。这些进步推动了复杂语言模型在资源受限设备上的部署,为各行业提供了更好的数据保护、低延迟和普及先进AI能力的机会。从云端到边缘的LLM部署转变标志着人机交互范式的革新,开辟了个性化、情境感知和即时AI体验的新途径,促进了各领域的智能化发展。然而,设备上LLM仍面临平衡性能与资源限制、确保模型鲁棒性及开发持续学习机制等挑战。此外,能源效率、可持续性和负责任的部署问题也日益突出。原创 2024-12-08 19:46:20 · 2162 阅读 · 0 评论 -
全面深入解读Movie Gen技术原理5部曲:4-精准视频编辑
随着视频内容的普及,对易用、可控且精确的视频编辑工具的需求日益增长。文本引导的视频编辑模型成为热点研究方向,旨在让用户通过自然语言简单快速地编辑视频。然而,受限于有监督视频编辑数据的稀缺,高性能模型的开发面临挑战。本节介绍 Movie Gen Edit 模型及其无监督训练方法。Movie Gen Edit 的训练基于两个假设:显式训练模型进行视频编辑可显著提升性能。全面控制输入视频需要处理整个视频,而非仅处理有限特征。收集大规模视频编辑监督数据困难,导致训练-测试场景差异。原创 2024-12-07 15:17:37 · 1205 阅读 · 0 评论 -
全面深入解读Movie Gen技术原理(5部曲):个性化视频生成(3)
本文介绍Movie Gen如何探讨了个性化视频生成这一重要研究领域。Movie Gen的研究员提出了一种新颖的模型架构,通过将个性化信息整合到视频生成过程中,实现了最先进的效果。以下将介绍模型结构、训练方法、评估标准以及定量结果。这项研究不仅在技术上取得了突破,还具有广泛的实际应用前景,为个性化高质量视频生成开辟了新的可能性。后续将进一步解读Movie Gen的视频精准编辑和声音生成。小窗幽记机器学习记录机器学习过程中的点点滴滴和坑坑洼洼公众号Movie Gen在个性化视频生成领域取得了显著进展。原创 2024-11-09 18:56:03 · 1384 阅读 · 0 评论 -
万字长文深度解读Movie Gen技术原理(5部曲):图像&视频联合生成模型 (2)
今天这篇长文详细介绍Movie Gen中图像和视频的联合生成技术。主要内容包括:时间自编码器(TAE)的设计与优化、基于流匹配的训练目标、联合生成的骨干网络架构、文本嵌入和视觉-文本生成方法、空间上采样技术、模型扩展和训练效率优化等。此外,还详细介绍了预训练数据的准备过程,包括视觉筛选、运动筛选、内容筛选和字幕生成等步骤。整体上,全面深入地解析了Movie Gen的核心技术原理。后文将从个性化视频生成、精准视频编辑、音频生成这3个方面分别深度解读。感兴趣的小伙们可以留意本微信公众号。小窗幽记机器学习。原创 2024-11-09 18:27:13 · 1798 阅读 · 0 评论 -
全面深入解读Movie Gen技术原理(5部曲):概述 (1)
研究发现,通过扩大训练数据、计算资源和模型参数,使用Flow Matching训练的Transformer模型可以生成高质量的视频或音频。Meta据此打造Movie Gen的2种基础模型:Movie GenVideo和Movie GenAudio。Movie Gen Video和Movie Gen Audio模型参数量分别是300亿和130亿。原创 2024-10-07 16:55:32 · 2660 阅读 · 0 评论 -
风格迁移还能玩出花?谷歌重磅推出新风格迁移模型:零训练,秒变大师级风格!
由此产生的漂移不仅克服了上述困难,还确保了对参考风格的高度保真,并遵循给定的文本提示。通过理论论证和实证证据,RB-Modulation框架展示了在无需训练的情况下精确提取和控制内容和风格。此外,RB-Modulation的方法允许内容和风格的无缝组合,这标志着摆脱了对外部适配器或 ControlNets 的依赖。总之,RB-Modulation提供了一种强大且灵活的工具,为图像处理和生成艺术开辟了新的道路,让用户能够轻松实现各种独特的风格创造与内容融合。(b) 参考风格图像中不必要的内容泄漏,以及。原创 2024-10-01 23:28:44 · 594 阅读 · 0 评论 -
全面解读OpenAI o1三部曲:中篇-原理
小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖海参的小女孩。OpenAI 官方在技术博客《Learning to Reason with LLMs》中对 o1 系列模型做了进一步的技术介绍。虽然不是很详细,但是聊胜于无。小窗幽记机器学习记录机器学习过程中的点点滴滴和坑坑洼洼公众号在 OpenAI 的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现接近博士生水准。OpenAI 还发现它在数学和编码方面表现出色。原创 2024-09-30 20:10:53 · 1803 阅读 · 0 评论 -
开源实战分享 | 新书:《大型语言模型实战手册》随书代码分享
大型语言模型实战手册》(英文版)目前电子版在亚马逊有售,纸质版预计在2024年10月15日开售。该书通过超过275张定制插图,深入探索大型语言模型的世界,为Python开发者提供使用大型语言模型所需的实用工具和概念。如果对于插图没有特别执念的同学,可以直接在微信公众号《小窗幽记机器学习》上回复"大模型实战"获取随书代码(有完整的notebook)!纸上得来终觉浅,绝知此事要躬行!原创 2024-09-30 20:02:41 · 596 阅读 · 0 评论 -
全面解读OpenAI o1三部曲:上篇-概述
小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖海参的小女孩。前几天(9月12日),OpenAI发布了o1系列模型。该系列的模型旨在让模型。这类似诺贝尔经济学奖得主提到的"慢思考"。这种主打"慢思考"的模型与之前的模型相比,能够在科学、编程和数学领域中完成复杂任务和解决更难的问题。简而言之,"慢思考"模型在逻辑推理等理工科任务上,刷到一个新的高度!真的遥遥领先!堪称地表最强理科王者!记录机器学习过程中的点点滴滴和坑坑洼洼公众号。原创 2024-09-29 21:10:59 · 1234 阅读 · 0 评论 -
从 Prompt 工程看职场PUA!明明是模型缺陷,为啥要 Prompt 雕花?
从 Prompt 工程到职场 PUA,我们看到一个共同的问题:系统的不足让个体承担了不必要的负担。然而,随着技术的进步和职场文化的变革,这种现象正在得到改善。未来的 AI 模型应更具主动性和透明性,让用户在明确表达需求的情况下得到准确的结果。而在职场中,我们也应该追求一种公开、透明的沟通机制,鼓励每个人清晰表达需求。这种双向的改善,无疑将为人类和人工智能的互动带来更光明的前景。原创 2024-09-16 18:45:50 · 1270 阅读 · 1 评论 -
LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio
Qwen2-Audio是一个大规模音频-语言模型,可以接受各种音频信号输入,并根据语音指令执行音频分析或直接生成文本响应。与之前的模型(Qwen-Audio)相比,Qwen2-Audio在以下几个方面做了改进:简化预训练过程: 使用自然语言提示替代复杂的层级标签,扩大了训练数据规模。增强指令遵循能力: 通过监督微调和直接偏好优化(DPO),使模型输出更符合人类偏好。实现两种音频交互模式: 语音聊天模式和音频分析模式,无需系统提示即可智能切换。原创 2024-09-08 10:54:07 · 3180 阅读 · 0 评论 -
Google最新开源大语言模型:Gemma 2介绍及其微调(上篇)
2024年6月27日,Google DeepMind发布了Gemma 2,这是Gemma系列轻量级开放语言模型的最新成员。Gemma 2在架构和训练方法上都有重大创新,在多项基准测试中取得了显著进步,甚至可以与参数规模大2-3倍的模型相媲美。本文将对Gemma 2技术报告的主要内容进行解读,包括模型架构、预训练和后训练方法、性能评估等方面。原创 2024-07-21 16:39:13 · 4287 阅读 · 0 评论 -
基于AutoGen的多Agent AI系统实践
AutoGen是一个由Microsoft开源的框架,专为构建和优化大型语言模型(LLM)工作流程而设计。它提供了多Agent会话框架、应用程序构建工具以及推理性能优化的支持。基于AutoGen框架使得能够方便地使用多Agent开发LLM应用程序。以下将介绍如何基于AutoGen构建和定制多Agent系统,使Agent能够扮演不同的角色。通过使用AutoGen框架,不同Agent可以协作完成复杂任务。原创 2024-07-14 19:31:11 · 17076 阅读 · 0 评论 -
LLM端侧部署系列 | 如何将阿里千问大模型Qwen部署到手机上?环境安装及其配置(上篇)
引言下载待部署模型安装minconda安装tvm和mlc-llm安装 JDK安装 Android SDK下载mlc-llm仓库设置环境变量安装Rust。原创 2024-06-23 14:49:59 · 2959 阅读 · 3 评论 -
LLM端侧部署系列 | 如何将阿里千问大模型Qwen部署到手机上?实战演示(下篇)
为将Qwen大模型部署到手机,实现断网下Qwen模型正常使用,本文选择MLC-LLM框架。MLC LLM(机器学习编译大型语言模型,Machine Learning Compilation for Large Language Models) 是一种高性能的通用部署解决方案,将任何语言模型本地化部署在各种硬件后端和本机应用程序上,并为每个人提供一个高效的框架,以进一步优化自己模型性能。该项目的使命是使每个人都能够使用ML编译技术在各种设备上本机开发、优化和部署AI模型。原创 2024-04-04 16:39:06 · 6636 阅读 · 7 评论 -
模型推理加速系列 | 08:TensorRT-LLM助力LLM高性能推理
其实小编之前有介绍过关于如何用TensorRT提升模型推理速度,感兴趣的小伙伴可以回顾下:TensorRT-LLM 是一个开源库,用于定义、优化和执行大型语言模型 (LLM) 在生产环境的推理。它在开源 Python API 中保留了 FasterTransformer 的核心功能,并与 TensorRT 的深度学习编译器配合使用,以快速支持新模型和定制模型。原创 2023-12-23 11:10:50 · 1697 阅读 · 0 评论 -
LLM系列 | 27 : 天工大模型Skywork解读及揭露刷榜内幕引发的思考
Skywork是由昆仑万维集团·天工团队开发的一系列大型模型,计划开源的模型有Skywork-13B-Base模型(目前确实已开源)、Skywork-13B-Chat模型(暂时2023年11月12日还没有开源,可能在走备案和流程审批?)、Skywork-13B-Math模型(暂无)和Skywork-13B-MM模型(也暂无)。Skywork-13B是使用超过3.2万亿个中英文Token进行预训练得到的130亿参数双语基础语言模型系列(即所谓的基座模型)。原创 2023-11-15 23:00:58 · 3555 阅读 · 0 评论 -
OpenAI开发者大会之后,当何去何从?
此次发布会简单总结如下。1. 发布GPT-4 Turbo更长。支持128K上下文输入,标准GPT-4是8K版本,之前升级出了32K版本更可控。JSON格式输出,增加seed控制模型回复可复现更新的知识。GPT-4 Trubo的知识更新至2023年4月开放多模态能力,整合了文生图模型DALL·E 3和声音合成模型(TTS)以及语音识别模型Whisper V3等开放 Fine-Tuning功能,支持在GPT-4基础上微调进行模型定制输出速度更快,每分钟输出翻倍围绕ChatGPT构建应用生态。原创 2023-11-08 23:52:57 · 766 阅读 · 1 评论 -
LLM系列 | 26:阿里千问Qwen模型解读、本地部署
Qwen 是一个全能的语言模型系列,包含各种参数量的模型,如 Qwen(基础预训练语言模型,即基座模型)和 Qwen-Chat(聊天模型,该模型采用人类对齐技术进行微调)。基座模型在众多下游任务中始终表现出卓越的性能,而聊天模型,尤其是使用人类反馈强化学习(RLHF)训练的模型,具有很强的竞争力。聊天模型Qwen-Chat拥有先进的工具使用和规划能力,可用于创建agent应用程序。即使在使用代码解释器等复杂任务上,Qwen-Chat与更大的模型相比也能表现出极具竞争力的性能。原创 2023-11-04 17:05:42 · 26529 阅读 · 0 评论 -
LLM系列 | 23:多模态大模型:浦语·灵笔InternLM-XComposer解读、实战和思考
浦语·灵笔模型是基于书生·浦语大语言模型研发的视觉-语言大模型图文交错创作: 浦语·灵笔可以为用户打造图文并貌的文章,具体是提供文章生成和配图选择的功能。理解用户指令,创作符合要求的文章。智能分析文章,自动规划插图的理想位置,确定图像内容需求。基于以文搜图服务,从图库中检索出对应图片。图文理解: 浦语·灵笔设计了高效的训练策略,为模型注入海量的多模态概念和知识数据,赋予其强大的图文理解和对话能力。从公布的技术报告可以获悉InternLM-XComposer在公开评测数据集上的战绩。原创 2023-10-27 23:19:18 · 2704 阅读 · 1 评论 -
LLM系列 | 20 : Llama2 实战(下篇)-中文语料微调(附完整代码)
上篇主要介绍Llama2的基本情况和基于官方模型实测Llama2在中英上的效果,包括。今天这篇小作文作为Llama2的下篇,主要介绍如何用中文语料对Llama 2的基座模型(7B版)进行微调并实测微调后模型的效果。本文实验完整代码请找小编索取。后续将实战Code Llama感兴趣的小伙伴可以关注下!原创 2023-09-16 21:34:30 · 5071 阅读 · 0 评论 -
LLM系列 | 19 : Llama 2实战(上篇)-本地部署(附代码)
小伙伴们好,我是《小窗幽记机器学习》的小编:卖热干面的小女孩。紧接前文:万字长文细说ChatGPT的前世今生,后续会尝试以理论+实践的方式逐步对主流的各大LLM进行实测和汉化。今天这篇关于Llama2的小作文其实比较长,所以分为上下两篇,上篇主要介绍和上的效果,包括。本文作为上篇,整个实验过程使用的模型是,包括和。下篇则主要介绍如何用中文语料对Llama 2的基座模型进行微调并实测微调后模型的效果。感兴趣的小伙伴,可以关注下!本文实验完整代码获取请前往《小窗幽记机器学习》找小编索取。原创 2023-08-24 23:46:30 · 9346 阅读 · 4 评论 -
万字长文细说ChatGPT的前世今生
本文主要介绍GPT模型的训练方法,包括预训练、监督微调、奖励建模和强化学习这四个阶段。不同微调模型具备不同特点,基础模型更富创造力,而强化学习微调后可获得最高质量的回复。在使用GPT的使用,可以利用提示工程技巧,比如提供充足上下文、引导模型步步思考等。当前模型依然存在各种局限,人类应谨慎而有效地将其应用于低风险的协作场景中,不能轻视其潜在风险。总体而言,本文系统地介绍了GPT的训练和使用,包括GPT助手模型的全流程及各种关键技巧。原创 2023-08-09 23:47:11 · 625 阅读 · 0 评论 -
《人类简史》作者尤瓦尔·赫拉利最新访谈:《人性、智能、权力和阴谋》
赫拉利在访谈中阐释了他对AI、意识、人性、和平等的独到见解,让我们审视这个时代的种种关键议题。赫拉利分析了人工智能的风险,呼吁我们不能仅凭智能来判断一个存在,还要考量其是否具备意识和情感。痛苦是判断生命的唯一标准,理解痛苦本质才是接近生命意义的关键,情感体验高于理性逻辑。此外,赫拉利还介绍了自己的思考方式,直视死亡,并通过冥想获得洞见。赫拉利分析了希特勒、内塔尼亚胡和俄乌冲突等问题。对于阴谋论,他指出小团体不可能控制世界,我们需要合作应对共同威胁。而AI则可能让人类失去对自己生活的控制,需要保持警惕。原创 2023-07-23 18:19:59 · 869 阅读 · 0 评论
分享