- 博客(61)
- 收藏
- 关注
原创 Qwen-Image-2.0:中文图像生成与编辑集成于一身的模型
摘要: 阿里巴巴于2026年2月10日发布新一代视觉大模型Qwen-Image-2.0,重点提升文本渲染与图像生成质量。该模型支持1K token长文本输入,能准确生成含复杂中文排版的海报、PPT等图文内容,并整合文生图与编辑功能于统一架构。实测显示,其在专业场景(如信息图、教育素材)中表现稳定,但艺术创作与极致真实感任务仍存局限。轻量化设计使其推理效率提升,目前通过Qwen Chat开放体验,未来可能开源。
2026-02-10 22:13:38
759
原创 Qwen3-ASR:阿里通义新开源的语音识别模型
2026年1月,阿里云Qwen团队开源了Qwen3-ASR语音识别模型系列,包含0.6B和1.7B两个版本。该模型聚焦中文方言、歌词识别和专业术语等场景,支持52种语言与方言,在识别准确率和推理效率上表现优异。其架构基于Qwen3-Omni,采用动态窗口机制,兼具离线音频处理和流式转写能力。实测显示,Qwen3-ASR在嘈杂环境、方言和专业术语识别上优于主流方案,且部署门槛低,适合中英文为主的会议转录、音乐教育等场景。尽管在冷门语言覆盖上存在局限,但Qwen3-ASR在特定领域展现了高效实用的特点。
2026-02-04 09:46:38
681
原创 Z-Image 6B:迟到但解渴的开源文生图基座,这次补上了 Turbo 版的遗憾
Z-Image 6B基座模型发布,为开源文生图赛道带来新选择。相比之前的Turbo蒸馏版,该模型在风格多样性、微调友好度和生成质量上有显著提升,支持全风格覆盖和二次开发,但推理速度有所下降。作为"性能与成本平衡"的解决方案,它适合中小企业创作者、开发者及高端玩家使用。模型采用Apache 2.0开源许可,目前可通过GitHub、魔搭社区和Hugging Face获取,为AI创作提供了更多可能性。
2026-01-29 09:00:50
1873
原创 从机械扫描到逻辑阅读:DeepSeek-OCR 2的技术革新
DeepSeek-OCR 2实现了OCR技术从"机械扫描"到"逻辑阅读"的范式转变。其核心创新DeepEncoder V2架构引入"视觉因果流"机制,通过视觉压缩和动态重排两阶段处理,使AI能像人类一样理解文档结构而非简单扫描。
2026-01-27 21:40:41
1168
原创 阶跃星辰Step3-VL-10B:10B参数多模态模型的轻量化突破之道
阶跃星辰开源的Step3-VL-10B多模态模型(100亿参数)突破了"模型越大性能越强"的固有认知,在多项测试中媲美10-20倍参数量的大型模型。其成功源于三大创新:1)视觉与语言模块深度协同的架构设计;2)1.2T令牌沉浸式训练与1400轮强化学习的全链路优化;3)PaCoRe并行推理框架提升决策可靠性。
2026-01-22 08:58:29
1335
原创 FLUX.2 Klein:消费级GPU也能实现的亚秒级图像生成
Black Forest Labs(黑森林实验室)正式开源了FLUX.2系列中的轻量级成员——FLUX.2 [klein]模型家族。FLUX.2 [klein]以其**亚秒级推理速度**和**消费级硬件友好性**迅速吸引了开发者的关注。
2026-01-20 09:39:28
1807
原创 GLM-Image:国产芯片训练的混合架构图像生成模型解析
GLM-Image是由智谱AI与华为联合推出的开源图像生成模型,首次在国产昇腾Atlas 800T A2芯片上完成全流程训练。该模型采用创新的"自回归+扩散解码器"混合架构,在中文文本渲染和多分辨率适配方面表现突出,支持1024×1024至2048×2048的图像生成。其技术亮点包括双阶段编码器、跨模态注意力机制以及基于昇思MindSpore的优化训练策略。实测显示,该模型在中文生成任务上达到开源模型SOTA水平,尤其擅长图文混排、商业海报等场景。
2026-01-15 08:19:03
1437
原创 Qwen3-VL-Embedding & Reranker:多模态检索的“快筛+精排”双引擎
通义千问团队推出的Qwen3-VL-Embedding和Qwen3-VL-Reranker模型组成了高效的多模态检索解决方案。Embedding模型采用双塔架构实现快速召回;Reranker模型通过单塔架构进行精细排序。
2026-01-13 19:10:38
1187
原创 国内AI智能眼镜开放平台全景解析:从SDK到生态建设
解析 2026 年国内主流 AR 眼镜开放平台 SDK,聚焦雷鸟创新、Rokid 等四大开放平台的架构、功能与工具链,修正 Rokid SDK 上线时间、XREAL Unity 版本等细节。核心结论为雷鸟、Rokid 生态领先,XREAL 适配 Unity 开发者,影目适合轻量应用,为 AI眼镜开发选型提供参考。
2026-01-08 19:01:33
1792
原创 Vibe Kanban:Rust构建的AI编程代理编排平台
Vibe Kanban是一款面向AI编程时代的项目管理工具,旨在解决开发者管理多个AI编码代理(如Claude Code、Gemini CLI等)的协同工作难题。该工具通过可视化看板界面实现六大核心功能:多代理灵活切换、任务编排、代码审查、状态追踪、集中配置管理和远程项目管理。采用Rust+Node.js的跨栈架构,支持并行/串行任务调度,提供开发服务器一键启动和实时状态监控。Vibe Kanban重新定义了人机协作开发范式,将开发者角色从编码转向规划与协调,显著提升AI辅助编程效率,是面向未来的创新开发平
2026-01-06 21:57:55
1480
原创 重磅!TRAE 中国版 SOLO 全量免费开放,AI 驱动开发迎来全民时代
摘要:TRAE中国版SOLO模式宣布全量免费开放,标志着AI编程进入全民普及阶段。SOLO模式是AI主导的全流程开发中枢,支持多模型自由切换、自定义模型接入和智能上下文管理。其核心优势包括Plan Mode计划模式、多任务并行处理、Diffview差异视图和双智能体协同,让开发者从"执行者"转变为"指挥官"。此次免费开放降低了AI编程工具使用门槛,开发者只需更新IDE即可体验SOLO模式带来的效率提升。
2026-01-04 20:01:24
2140
1
原创 开源黑科技:AutoMV让AI自动生成专业级全曲MV,成本直降99%
摘要: 2025年底问世的AutoMV开源系统彻底改变了独立音乐人的MV制作困境。这款由多所高校联合研发的多智能体系统,首次实现基于单首歌曲自动生成数分钟连贯、专业的MV,成本仅15美元、耗时30分钟。其创新在于模拟人类影视流程的多智能体协作架构:通过音乐解析、智能编剧、视觉导演和质量审核四大核心流程,攻克了传统AI工具的音画割裂、角色"变脸"等难题。实测显示,AutoMV在音乐相关性、技术质量和角色一致性上碾压商业竞品,并推出首个M2V评估基准。作为开源项目,它赋予创作者低成本与高自由
2025-12-31 19:35:40
1800
原创 4090实战:ComfyUI运行Qwen-Image-Edit-2511模型指南(含避坑要点)
本文针对4090显卡24G显存限制,分享了Qwen-Image-Edit-2511量化模型在ComfyUI中的部署方案。详细提供了LoRA、VAE、UNet和CLIP模型的下载路径及wget命令,重点强调了CLIP模型必须下载mmproj文件以避免"矩阵维度不匹配"错误。通过完整的前置准备、量化模型下载清单和关键避坑指南,帮助用户快速实现高性能图像编辑模型的落地应用。
2025-12-27 11:54:41
2050
4
原创 Qwen-Image-Edit-2511:AI图像编辑的新标杆
阿里Qwen团队发布图像编辑模型Qwen-Image-Edit-2511重大更新,重点提升稳定性和可控性。新版本优化了人物一致性、内置LoRA子模型并增强几何构造能力,解决了2509版本在人物特征漂移、复杂材质控制等方面的痛点。实测显示,该模型在人像融合、风格迁移等场景表现优异,但在精细镜头控制上仍有不足。目前模型已开源,支持多种量化版本,适用于内容创作、电商设计等领域。相关资源可通过Hugging Face获取。
2025-12-25 11:47:20
1780
原创 Vibe Coding实战从零开发小程序:AI协作的惊喜与踩坑
本文分享了作者作为编程新手借助AI工具Trae SOLO模式开发两款小程序的完整经历。总结了AI协作编程的优缺点:能快速实现基础功能、推荐技术方案,但也存在界面调整困难、代码重复定义等问题。
2025-12-23 18:54:48
948
原创 Meta SAM Audio:多模态音频分割的新纪元
Meta发布SAM Audio模型,开创多模态音频分割新时代。这一突破性技术允许用户通过文本描述、视觉点击或时间标记三种自然方式,从复杂音频中精准分离特定声音。
2025-12-19 07:54:40
1015
原创 实测 Kandinsky 5.0 图编辑功能:与龙猫模型效果深度对比,结果出乎意料!
本文详细介绍了如何在RTX 4090显卡(24G显存)上运行Kandinsky 5.0图像编辑模型。经测试,在图像编辑方面龙猫模型可能更具优势。
2025-12-18 08:03:04
1615
原创 租用共绩算力4090实测龙猫图片编辑
【摘要】本地16GB显存显卡无法运行LongCat-Image项目,改用共绩算力平台租用4090显卡(24GB显存)成功运行。该平台提供免费算力申请,预装开发环境,但共享存储卷读写较慢。实测显示项目需17GB显存,通过CPU卸载优化仍无法在16GB显卡运行。编辑效果出色,成功将图片中的汽车替换为摩托车并保留自然阴影细节。建议大显存需求开发者使用云算力方案。(149字)
2025-12-17 08:09:16
848
原创 个人开发者AI显卡选购指南:2025年性价比之选
AI硬件的选择应始终围绕实际需求展开。90%的个人开发者其实只需要中等规模的AI显卡,盲目追求旗舰卡不仅会造成资源浪费,也会增加不必要的经济负担。通过本文的分析,相信读者已经能够根据自身预算和AI开发需求,找到最适合的显卡选择。无论是入门级的RTX 3060 12GB,还是中端的RTX 5060 Ti 16GB,或是高端的RTX 4080 SUPER,只要能够匹配你的实际AI任务需求,就是最具性价比的选择。最后,无论选择哪款显卡,保持系统和显卡驱动的最新状态。
2025-12-16 09:44:37
1699
1
原创 两周实测:Kiro与Trae cn谁是我更中意的AI IDE?
摘要:本文对比测试了Kiro和Trae cn两款AI编程IDE的使用体验。从插件生态、AI交互、智能程度和稳定性四个维度分析,Trae cn在远程开发适配、上下文捕捉、问题解决能力和终端执行稳定性方面表现更优。特别是在自动捕捉报错信息和多环境开发支持上优势明显,而Kiro存在模型限制和agent误判问题。综合来看,Trae cn更适合开发者日常使用,但两款工具都处于快速迭代阶段,未来表现可能发生变化。
2025-12-14 19:56:26
1789
6
原创 尝鲜 AWS Agentic IDE:Kiro 一周使用初体验
AWS推出的Kiro Agentic IDE带来了规范驱动开发的新体验。基于VS Code内核降低了上手门槛,但对WSL和Remote SSH插件兼容性不足。其核心Spec模式通过需求文档、设计文档和任务清单三阶段确保开发规范性,并能自动同步代码与文档。Vibe模式则提供快速原型开发能力。
2025-12-13 08:30:27
1625
原创 GLM-TTS智谱开源的工业级语音合成系统到底强在哪?
智谱开源工业级语音合成系统GLM-TTS,实现3秒音色克隆和低成本工业级效果。该系统仅需10万小时训练数据,单机4天完成预训练,支持多音字、数学公式等精准发音,MOS评分行业领先。
2025-12-12 07:56:47
1412
原创 GLM-4.6V:从视觉理解到行动执行
智谱AI发布开源多模态大模型GLM-4.6V系列,其中GLM-4.6V-Flash(9B)轻量版免费商用并开放全量权重,实现多模态技术普惠化。
2025-12-11 08:04:19
2107
2
原创 Open - AutoGLM开源:解锁AI手机时代,人人皆可打造智能终端助手
Open - AutoGLM的开源,是AI Agent领域的一次重要突破,更是行业生态共建的一次有益实践。它用技术开放打破垄断,用架构设计保障隐私,用完整工具链降低门槛,让“人人可造AI手机”从愿景变为现实。
2025-12-10 08:07:03
1626
1
原创 LongCat-Image:美团的轻量化图像生成与编辑新标杆
美团开源LongCat-Image图像生成与编辑模型,60亿参数轻量化设计实现SOTA性能。该模型创新性地采用"生成与编辑一体化"架构,支持15类细分编辑任务,尤其在中文文本渲染方面表现突出。
2025-12-09 07:56:49
1576
1
原创 当前主流免费AI编程IDE盘点:高性价比开发工具精选
随着AI编程技术的快速普及,越来越多开发者开始依赖AI工具提升编码效率。当前市场上,一批支持免费使用的AI编程IDE凭借强大的功能、低门槛的接入方式,成为个人开发者与中小团队的首选。
2025-12-08 10:42:59
1306
1
原创 Orchestrator-8B:近期HuggingFace上火热的小型模型
英伟达与香港大学联合发布了一项令人瞩目的技术突破——Orchestrator-8B,近期在HuggingFace上保持着相当高的热度。
2025-12-07 13:27:19
884
1
原创 2025年开源图生图模型盘点:Kandinsky 5.0、Qwen-Image与Z-Image
2025年开源图生图模型迎来技术突破,三大代表性模型Kandinsky 5.0、Qwen-Image和Z-Image各具特色。
2025-12-06 15:45:05
2153
1
原创 国内的大模型访问能访问墙外内容吗?
在大模型应用日益广泛的当下,其内容访问能力直接影响回答的准确性与实用性,尤其是对墙外优质技术资源(如GitHub、Hugging Face等平台内容)的获取能力,更是技术从业者关注的重点。
2025-12-05 14:17:06
750
1
原创 从像素到语义:图像分割技术的演进与实践
图像分割技术:从算法演进到行业应用 摘要:图像分割作为计算机视觉的核心技术,实现了从像素感知到语义理解的跨越。本文系统梳理了技术发展脉络:传统算法(阈值/边缘检测)依赖手工特征,深度学习(FCN/U-Net/DeepLab)实现自动特征学习,而SAM/YOLO等前沿模型则推动通用化与实时化突破。当前技术已广泛应用于医疗(病灶分割精度达93.16%)、自动驾驶(实时156 FPS)和工业检测等领域,其中联邦学习解决了医疗数据隐私问题,SAM3更实现零样本概念分割。
2025-12-04 18:48:23
604
1
原创 手机端侧智能助手:从被动工具到主动助手的进化之路
端侧AI助手迎来突破性进展:阶跃星辰开源4B参数轻量化模型GELab-Zero-4B-preview,实现主流安卓设备一键部署;字节跳动豆包手机助手首发端侧持久记忆与跨App操作能力。
2025-12-03 08:22:11
1601
1
原创 DeepSeek V3.2 特别版体验
DeepSeek发布双模型版本DeepSeek-V3.2标准版和V3.2-Speciale专业版。初步体验Speciale 特别版模型目前在输出完整性上仍有优化空间,确实还存在一定的不成熟之处。
2025-12-02 09:27:31
2475
1
原创 TRAE SOLO:使用初体验
TRAE SOLO国内版上线后,其SOLO模式展现出超越传统代码补全工具的潜力,成为全程陪跑的"编程伙伴"。
2025-12-01 11:18:57
5399
3
原创 Ilya Sutskever在最近访谈中的关键观点及对IT技术人员的启示
Dwarkesh Patel 与 Ilya Sutskever 近期进行了深度对话 ,个人及AI辅助整理核心观点及启示。
2025-11-30 13:34:33
1282
1
原创 当AI成为“大脑”:人类如何在机器时代找到不可替代的价值?
人脑“快慢系统”与AI架构的相似性,指出情感是人类内置的价值函数,强调在AI时代,人类应聚焦共情、道德判断与终身学习等不可替代能力,走向人机协同而非对抗。
2025-11-29 15:46:26
1130
1
原创 Windows系统设置Ollama使用GPU
如果系统中有多个 NVIDIA GPU,并且希望限制 Ollama 使用其中的一部分卡,可以通过设置CUDA_VISIBLE_DEVICES环境变量实现。变量值为以逗号分隔的 GPU UUID列表。Nvidia官方关于CUDA环境变量的参考链接地址:https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#env-varsGPU的UUID可以通过使用以下命令查看得到结果类似下图。
2025-11-28 10:13:54
2238
原创 Black Forest Labs开源AI图像生成与编辑模型FLUX.2
Black Forest Labs发布新一代图像生成模型FLUX.2,包含Pro、Flex、Dev和Klein四个版本,满足不同用户需求。FLUX.2 [Dev]开源采用Apache 2.0许可。
2025-11-27 09:17:48
1389
1
原创 1B参数实现多项SOTA:腾讯混元OCR开源模型体验
腾讯混元实验室开源的HunyuanOCR模型以仅1B参数量实现SOTA性能,在多项OCR测评中表现优异。
2025-11-26 10:13:01
1647
4
原创 微软Fara-7B :把浏览器“交”给 7B 模型,一台笔记本能走多远?
微软推出7B参数的Fara-7B模型,定位为高效计算机操作代理。该模型基于视觉解析直接操控设备界面,无需依赖可访问性树,可自动执行网页交互等任务。
2025-11-25 11:47:11
1927
1
原创 大模型测评技术
大模型评测体系正成为AI发展的重要支撑。通过科学评测体系,大模型能力将得到精准评估和持续优化,推动AI技术在各行业的健康发展。
2025-11-24 11:30:51
921
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅