围炉聊科技-CSDN博客

原创 Meta SAM Audio：多模态音频分割的新纪元

Meta发布SAM Audio模型，开创多模态音频分割新时代。这一突破性技术允许用户通过文本描述、视觉点击或时间标记三种自然方式，从复杂音频中精准分离特定声音。

2025-12-19 07:54:40 222

原创实测 Kandinsky 5.0 图编辑功能：与龙猫模型效果深度对比，结果出乎意料！

本文详细介绍了如何在RTX 4090显卡（24G显存）上运行Kandinsky 5.0图像编辑模型。经测试，在图像编辑方面龙猫模型可能更具优势。

2025-12-18 08:03:04 1003

原创租用共绩算力4090实测龙猫图片编辑

【摘要】本地16GB显存显卡无法运行LongCat-Image项目，改用共绩算力平台租用4090显卡（24GB显存）成功运行。该平台提供免费算力申请，预装开发环境，但共享存储卷读写较慢。实测显示项目需17GB显存，通过CPU卸载优化仍无法在16GB显卡运行。编辑效果出色，成功将图片中的汽车替换为摩托车并保留自然阴影细节。建议大显存需求开发者使用云算力方案。（149字）

2025-12-17 08:09:16 584

AI硬件的选择应始终围绕实际需求展开。90%的个人开发者其实只需要中等规模的AI显卡，盲目追求旗舰卡不仅会造成资源浪费，也会增加不必要的经济负担。通过本文的分析，相信读者已经能够根据自身预算和AI开发需求，找到最适合的显卡选择。无论是入门级的RTX 3060 12GB，还是中端的RTX 5060 Ti 16GB，或是高端的RTX 4080 SUPER，只要能够匹配你的实际AI任务需求，就是最具性价比的选择。最后，无论选择哪款显卡，保持系统和显卡驱动的最新状态。

2025-12-16 09:44:37 1064 1

原创两周实测：Kiro与Trae cn谁是我更中意的AI IDE？

摘要：本文对比测试了Kiro和Trae cn两款AI编程IDE的使用体验。从插件生态、AI交互、智能程度和稳定性四个维度分析，Trae cn在远程开发适配、上下文捕捉、问题解决能力和终端执行稳定性方面表现更优。特别是在自动捕捉报错信息和多环境开发支持上优势明显，而Kiro存在模型限制和agent误判问题。综合来看，Trae cn更适合开发者日常使用，但两款工具都处于快速迭代阶段，未来表现可能发生变化。

2025-12-14 19:56:26 1246 2

原创尝鲜 AWS Agentic IDE：Kiro 一周使用初体验

AWS推出的Kiro Agentic IDE带来了规范驱动开发的新体验。基于VS Code内核降低了上手门槛，但对WSL和Remote SSH插件兼容性不足。其核心Spec模式通过需求文档、设计文档和任务清单三阶段确保开发规范性，并能自动同步代码与文档。Vibe模式则提供快速原型开发能力。

2025-12-13 08:30:27 1250

原创 GLM-TTS智谱开源的工业级语音合成系统到底强在哪？

智谱开源工业级语音合成系统GLM-TTS，实现3秒音色克隆和低成本工业级效果。该系统仅需10万小时训练数据，单机4天完成预训练，支持多音字、数学公式等精准发音，MOS评分行业领先。

2025-12-12 07:56:47 1248

原创 GLM-4.6V：从视觉理解到行动执行

智谱AI发布开源多模态大模型GLM-4.6V系列，其中GLM-4.6V-Flash（9B）轻量版免费商用并开放全量权重，实现多模态技术普惠化。

2025-12-11 08:04:19 1808 2

原创 Open - AutoGLM开源：解锁AI手机时代，人人皆可打造智能终端助手

Open - AutoGLM的开源，是AI Agent领域的一次重要突破，更是行业生态共建的一次有益实践。它用技术开放打破垄断，用架构设计保障隐私，用完整工具链降低门槛，让“人人可造AI手机”从愿景变为现实。

2025-12-10 08:07:03 1478 1

原创 LongCat-Image：美团的轻量化图像生成与编辑新标杆

美团开源LongCat-Image图像生成与编辑模型，60亿参数轻量化设计实现SOTA性能。该模型创新性地采用"生成与编辑一体化"架构，支持15类细分编辑任务，尤其在中文文本渲染方面表现突出。

2025-12-09 07:56:49 1493 1

原创当前主流免费AI编程IDE盘点：高性价比开发工具精选

随着AI编程技术的快速普及，越来越多开发者开始依赖AI工具提升编码效率。当前市场上，一批支持免费使用的AI编程IDE凭借强大的功能、低门槛的接入方式，成为个人开发者与中小团队的首选。

2025-12-08 10:42:59 1008 1

原创 Orchestrator-8B：近期HuggingFace上火热的小型模型

英伟达与香港大学联合发布了一项令人瞩目的技术突破——Orchestrator-8B，近期在HuggingFace上保持着相当高的热度。

2025-12-07 13:27:19 802 1

原创 2025年开源图生图模型盘点：Kandinsky 5.0、Qwen-Image与Z-Image

2025年开源图生图模型迎来技术突破，三大代表性模型Kandinsky 5.0、Qwen-Image和Z-Image各具特色。

2025-12-06 15:45:05 1319 1

原创国内的大模型访问能访问墙外内容吗？

在大模型应用日益广泛的当下，其内容访问能力直接影响回答的准确性与实用性，尤其是对墙外优质技术资源（如GitHub、Hugging Face等平台内容）的获取能力，更是技术从业者关注的重点。

2025-12-05 14:17:06 603 1

原创从像素到语义：图像分割技术的演进与实践

图像分割技术：从算法演进到行业应用摘要：图像分割作为计算机视觉的核心技术，实现了从像素感知到语义理解的跨越。本文系统梳理了技术发展脉络：传统算法（阈值/边缘检测）依赖手工特征，深度学习（FCN/U-Net/DeepLab）实现自动特征学习，而SAM/YOLO等前沿模型则推动通用化与实时化突破。当前技术已广泛应用于医疗（病灶分割精度达93.16%）、自动驾驶（实时156 FPS）和工业检测等领域，其中联邦学习解决了医疗数据隐私问题，SAM3更实现零样本概念分割。

2025-12-04 18:48:23 524 1

原创手机端侧智能助手：从被动工具到主动助手的进化之路

端侧AI助手迎来突破性进展：阶跃星辰开源4B参数轻量化模型GELab-Zero-4B-preview，实现主流安卓设备一键部署；字节跳动豆包手机助手首发端侧持久记忆与跨App操作能力。

2025-12-03 08:22:11 1455 1

原创 DeepSeek V3.2 特别版体验

DeepSeek发布双模型版本DeepSeek-V3.2标准版和V3.2-Speciale专业版。初步体验Speciale 特别版模型目前在输出完整性上仍有优化空间，确实还存在一定的不成熟之处。

2025-12-02 09:27:31 2066 1

原创 TRAE SOLO：使用初体验

TRAE SOLO国内版上线后，其SOLO模式展现出超越传统代码补全工具的潜力，成为全程陪跑的"编程伙伴"。

2025-12-01 11:18:57 2702 2

原创 Ilya Sutskever在最近访谈中的关键观点及对IT技术人员的启示

Dwarkesh Patel 与 Ilya Sutskever 近期进行了深度对话，个人及AI辅助整理核心观点及启示。

2025-11-30 13:34:33 1238 1

原创当AI成为“大脑”：人类如何在机器时代找到不可替代的价值？

人脑“快慢系统”与AI架构的相似性，指出情感是人类内置的价值函数，强调在AI时代，人类应聚焦共情、道德判断与终身学习等不可替代能力，走向人机协同而非对抗。

2025-11-29 15:46:26 1046 1

原创 Windows系统设置Ollama使用GPU

如果系统中有多个 NVIDIA GPU，并且希望限制 Ollama 使用其中的一部分卡，可以通过设置CUDA_VISIBLE_DEVICES环境变量实现。变量值为以逗号分隔的 GPU UUID列表。Nvidia官方关于CUDA环境变量的参考链接地址：https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#env-varsGPU的UUID可以通过使用以下命令查看得到结果类似下图。

2025-11-28 10:13:54 487