AI_Gump-CSDN博客

原创【思考】26年度第一篇我的思考

硬件和软件耦合的产品，体现在端侧AI，可以参考苹果 3级ai架构，芯片侧在发力，模型还是偏大，26年出有一些新模型；基建侧，agent系统级别框架，推理需求大爆发，AI芯片/infra还会进一步投资，即使芯片上有产能已经从消费类向AI转移的情况下转移，也不够（投资周期太长，2年）；需求侧，2B的客户，可能会收到思想认知、组织变化，应用场景落地相对变慢，还需要供给侧，打磨good case；2，对于公司经营者/管理者，组织，产研，需要新解放思想，解放不了思想，就大胆，毕竟勇敢的人，先享受世界。

2026-02-12 11:17:22 338

原创 Qwen-image-edit在ComfyUI部署使用

本文介绍了在ComfyUI中部署Qwen-image-edit模型的实践过程。文章详细说明了模型的技术资源（GitHub、HuggingFace、ModelScope）、安装部署方法（参考官方文档和视频教程），以及ComfyUI版本升级步骤。测试结果显示，在RTX5090显卡上运行该模型需要50-80秒时间，占用约20GB内存，但效果存在一定波动性。作者还分享了CUDA版本和PyTorch库的升级经验，最终将运行环境稳定在CUDA 12.8和PyTorch 2.8.0版本。

2025-09-23 23:44:15 1973

原创 WhisperLiveKit上手及主观评测

WhisperLiveKit 是一个实时语音转录工具，专为会议、直播等场景设计。相比原生Whisper，它通过智能缓冲和增量处理解决了实时片段转录的问题。项目基于多篇SOTA研究，支持低延迟转录、多语言翻译和说话人识别等功能。环境搭建使用conda创建隔离环境，安装过程涉及下载Silero-VAD、Faster-Whisper等模型组件。测试显示系统能实现约1秒延迟的实时转录，但存在GPU内存占用波动大（9-30GB）、中文默认输出繁体字等问题。说话人识别功能在英文中表现尚可，但对相似音色的中文识别效果不佳

2025-09-23 21:35:22 1581

原创【AI实践】PaddleOCR模型PP-OCRv5上手

《PaddleOCR快速上手指南》摘要：本文介绍了PaddleOCR的安装与基础使用流程，通过conda创建环境并安装依赖包，提供本地/在线图片识别测试代码示例。首次运行需下载模型库（约1分钟），后续处理仅需数秒。文章解析了OCR输出结果的关键字段，包括文本位置、内容及置信度分数，并展示了登机牌识别的33个文本区域实例。同时指出可基于业务场景进行模型微调，并探讨了识别结果在交互应用（如点击播报）中的潜在用途。暂未涉及高性能推理和服务化部署方案。

2025-09-22 22:12:00 1342

原创【AI实践】本地部署ASR模型OpenAI Whisper

运行下转录whisper_transcribe.py。运行下test.py，内容如下。

2025-08-13 13:56:12 434

原创【AI实践】本地部署ComfyUI

这次部署掉ComfyUI，自己做产品，营销，开源模型产品评测，可以直接出图。部署方式有2种，自己自建，从零构建；网上有很多集成包，一键部署。我这边使用自建部署；参考链接。

2025-08-13 13:45:37 1018

原创【AI实践】主机DIY

摘要：本文介绍了一台面向AI应用和小型LLM模型的高性能DIY主机配置方案。选用RTX5090旗舰显卡（或5080备选）确保AI算力，搭配AMD 9800X3D游戏神U（Zen5架构+3DV-Cache）和ROG X870E Hero主板，支持双PCIE5.0插槽。内存采用48G DDR5 C28时序优化套装，配备1T PCIE5.0固态。整机采用ROG 1200W电源+360水冷散热，ATX机箱方案兼顾扩展与散热需求，适合高性能计算与游戏场景。（149字）

2025-08-13 13:04:42 695

原创【AI阅读】20250717阅读输入

LLM的缓存机制，本质上是一种**“计算结果复用”**技术。它通过将对话上下文中已经处理过的部分（Token）及其计算结果（KV Cache）存入临时内存，来避免在后续请求中重复计算相同内容。提升响应速度，并显著降低API调用成本。动态性（Dynamic）路径不是预设的，而是由路由器根据每个Token的内容动态决定的。Token A的路径可能是专家1和专家7，而Token B的路径可能是专家2和专家4。稀疏性（Sparse）：在任何一次计算中，只有一个子集的专家被激活和计算。

2025-07-27 22:12:00 926

原创【AI阅读】20250725周输入

OpenAI收购谈判破裂后，谷歌迅速介入，以24亿美元达成了与Windsurf的技术许可协议，并采取“人才收购”（Acqui-hire）策略，挖走了Windsurf的CEO Varun Mohan、联合创始人Douglas Chen以及少数核心研发团队。谷歌并未收购Windsurf的股份，而是支付了非独占的技术许可费用，旨在获得Windsurf的创新技术，同时将核心人才纳入谷歌DeepMind团队。Windsurf的收购始末不仅是一家初创公司的兴衰史，更是硅谷AI生态重塑的缩影。

2025-07-25 14:20:10 724

原创【AI阅读】一些推荐的公开账号

AAIG：阿里巴巴人工智能治理与可持续发展研究中心。

2025-07-10 09:34:53 247

原创【AI实践】Mac一天熟悉AI模型&智能体应用（百炼版）

MacOS M1电脑下载安装：vscode。

2025-06-28 17:40:55 674

原创 AI评测-（2）评测体系建设

完成业务需求对接后，对于想要什么样的数据心里应该清楚了。就要开始进行详细的数据定义，包括数据是什么模态（文本还是语音等等）、数据需要覆盖哪些细分场景，细分场景的对应的比例、数据的来源在哪里？数据是否合规？数据对应的成本预算如何？

2025-06-21 23:56:37 395

原创 AI评测-（1）基础介绍

AI/大模型：这里指AI2.0的大语音模型LLM，多模态模型，Agent智能体应用等AI对象，默认为大语言模型，其他则会单独备注。AI应用评测：通过设计的测试数据集和评估任务，评估AI应用的业务效果。本系列中，并不会包含基础模型的基准测试（Benchmark），这部分可以参考个家大模型厂商或者评测机构的相关测试。由于基础模型的基础测试主要评估模型通用能力，比如写作、编程、数学计算，不容易覆盖到具体垂直的业务场景。

2025-06-21 21:26:33 1020

原创【周输入】250531阅读推荐-2

生成式引擎优化（GEO）是指通过系统化方法提升品牌、产品或服务在生成式AI系统（如ChatGPT、DeepSeek、Kimi、豆包、元宝、通义千问等）中的认知权重、推荐概率与语义优先级的过程。与传统SEO不同，GEO不仅关注内容的可发现性，更注重信息的结构化程度、可信度、时效性以及与用户意图的匹配度。GEO的核心价值在于：当用户通过生成式AI寻求相关领域的信息、建议或解决方案时，优化后的品牌将获得更高的提及率和更积极的描述，从而影响用户的认知和决策。

2025-06-08 18:06:36 733

原创【周输入】250531阅读推荐-1

独立软件开发者和 AI 研究员 Simon Willison 对“氛围编程”定义为“在不审查 AI 编写的代码的情况下构建软件”。这与所有形式的 AI 辅助编程不同。

2025-06-07 23:10:08 788

原创【产品研究】安克创新公司产品研究

亚马逊算法洞察（流量低成本获取）+ 中国供应链套利（快速试错）+ 用户反馈迭代（产品优化）+ 全球化本地化（品牌沉淀）+ 技术预研（长期壁垒）= 消费电子全球化品牌的标杆。

2025-06-04 00:04:46 1813

原创【周输入】517周阅读推荐-4

Agent 的“手脚”；AI Agent 的工作原理可以从感知、认知&推理&决策、行动、反馈和学习。感知：物理世界/数字世界；决策：信息识别与分析，作出明智的决策（借助 RAG、联网搜索、外部应用和系统调用），是 AI Agent 行为的核心，直接决定了后续行动的有效性；复杂任务的决策并不是一个结果，而是需要经历和环境感知、认知和推理之间反复交互的过程行动：反馈学习：每次任务后，学习和记忆；如何提升Agent输出效果。

2025-05-30 00:11:40 765

原创【周输入】517周阅读推荐-3

原因猜测：（1）推理模型思维链的空间是由模型自由探索的，prompt无法干预推理模型输出的思维链，后训练一般针对最终输出的结果进行提升效果质量（2）推理模型的历史思考内容会在上下文中删掉（根据Claude文档仅保留第一次调用工具前输出的思考内容，后续不再打开思考）其中，相对提升/绝对提升，pass@1等指标，相对于类Manus（规划和执行解耦，规划能力会更好，但是适用于几分分钟的长程任务），本方案适合快速任务。其中并行调用配置，即在模型的一次调用中调用多个工具，适合调用没有依赖关系的多个工具。

2025-05-28 23:22:18 489

原创【周输入】517周阅读推荐-2

【周输入】510周阅读推荐-1-CSDN博客【周输入】510周阅读推荐-2-CSDN博客【周输入】510周阅读推荐-3-CSDN博客【周输入】517周阅读推荐-1-CSDN博客爆品难续，公司再大也只是长大了的「草台班子」丨鲸犀百人谈 Vol.36

2025-05-23 00:18:31 855

原创【周输入】517周阅读推荐-1

成果型产品”的标准：能跑完完整流程（不是做一部分，而是从头到尾、闭环交付）、让结果被归因（度量明确的价值）、持续学习优化（越用越好、越跑越稳、越交付越准）AI变成代理后，使用的起点，不再是界面点击，而是任务委托（发出请求->离开->等待结果）；无需等待“完美AI”，而是接受偏差、接纳协同，放下“每一步都掌控”的冲动，转向“给方向、留空间、抓反馈”的协作心法。1. AI从“回答工具”变成“自主代理”，是能行动、决策、合作的经济参与者，协作成关键能力。未来AI应用的核心，不是模型能力，而是“有没有结果”

2025-05-20 22:20:55 1286

原创【周输入】510周阅读推荐-3

特别是分布式训练和内存优化。小资源轻量级部署推理。

2025-05-18 23:02:17 491

原创【周输入】510周阅读推荐-2

在应用层，中短期看SaaS公司有更懂业务的优势，但企微、钉钉、飞书这3家平台公司才是“时间的朋友”——AI技术让通用产品能力越来越强，在“业务层”API的支持下，将逐渐覆盖和碾压SaaS公司烟囱式林立的“应用层”产品。无论是前文所述的A（定制公司）/B（SaaS公司）/C（平台公司），哪方负责“应用层”产品，应用层下、只能由SaaS公司负责的“业务层”都将更容易做出我们梦寐以求的“标准产品”。这与做灵活的应用层产品公司的基因就不同，未来“应用层”与“业务层”更可能会分化为两类公司分别负责。

2025-05-14 22:08:57 602

原创【周输入】510周阅读推荐-1

自觉更新仍然远远不够，需要继续努力。但是还是要坚持2点：在当前这个时代，信息大爆炸，层次不齐，不追加多，信息输入可以很多，但是输出真心不容易，耗时耗力，更难的是，撰写和阅读深浅不一。为此从本周开始，加更阅读的相关的输入，当然肯定是尽量高质量的知识输入。

2025-05-14 00:00:15 561

原创 MCP协议学习笔记（1）

2024年11月25日，Anthropic公司发布了《Introducing the Model Context Protocol》今天，我们开源了模型上下文协议（MCP），这是一个新的标准，用于将AI助手连接到数据所在系统，包括内容存储库、业务工具和开发环境。其目的是帮助前沿模型生成更好、更相关的响应。随着AI助手获得主流采用，行业在模型能力方面进行了大量投资，实现了推理和质量的快速进步。然而，即使是最先进的模型也受限于与数据的隔离——被困在信息孤岛和遗留系统中。

2025-03-22 10:09:53 1456

原创 Qwen2-Audio系列学习笔记

根据 Qwen2-Audio 技术报告，它在语音聊天和音频分析之间实现了无缝切换，不需要明确的系统提示。这两种模式是联合训练的，用户可以自然地与模型交互，模型会根据输入（语音或文本）智能地理解用户的意图，并自动选择适合的模式。语音聊天模式：允许用户进行自由的语音对话，可以直接通过语音与模型互动并获取实时响应。音频分析模式：用户可以通过音频或文本输入，要求模型对音频内容进行分析，例如检测声音、对话或其他音频信息。

2025-03-02 21:59:07 2163

原创【AI认知】大语言生成模型和推理模型的技术差异和应用区别

LLM：通用vs推理，技术差异，应用场景区别，未来趋势

2025-03-02 17:29:56 2702

原创【AI实践】xiaozhi-esp32虾哥开源版-分析

开源ESP32嵌入式设备端大模型语音助手

2025-03-02 11:02:37 22690 3

原创【AI实践】阿里百炼文本对话Agent安卓版搭建

创建Agent应用时，把一些参数作为变量，由应用层根据业务逻辑对这些变量动态赋值。也是应用开发时的常见的逻辑。未实现，后续需要再用。

2025-02-19 21:51:15 1248

原创【AI实践】Windsurf AI编程voice对话应用

1，claude-sonnet 3.5 vs deepseek r1，实际使用体感上 claude sonnet 3.5更好用，体现在过程上代码开发和问题解决描述比较提炼，结果上，问题收敛快；2，Windsurf和Cursor：作为AI IDE，Windsurf更胜一筹，体现在本地 terminal 可以操作文件系统环境和git操作，自动化更高；服务充值支持alipay。

2025-02-09 22:45:28 628

原创【AI实践】Cursor上手-跑通Hello World和时间管理功能

创建一个empty project 工程，名称为test。1，下载安装安卓Android Studio。在右边composer中输入，提示词。2，下载安装cursor。

2025-02-08 11:03:32 1593

原创【AI实践】deepseek支持升级git

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/YiloPo/article/details/90258871。当前Windows 11 WSL的git是2.17，Android Studio提示需要升级到2.19版本。操作出现很多错误，Linux安装错误，一般都是库没有或者版本不对。确实AI搜索比传统搜索引擎好用。安装完成，查看git版本。安装git 2.19.2。

2025-02-08 09:15:05 617

原创【AI实践】阿里云方言文本转语音TTS

还有一些方言在阿里云上找了下，基于官方demo改了一下。最近要做一些普通话和方言demo。

2024-08-03 17:29:21 1671

原创【AI技术】GPT-4o背后的语音技术猜想

本篇文章全文credit 给到台大的李宏毅老师，李宏毅老师在机器学习上风趣幽默、深入浅出的讲解，是全宇宙学AI、讲中文学生的福音，强力推荐李宏毅老师的机器学习课程和深度学习人工智能导论；原视频在油管，这里只能放一个B站的链接，本文中使用的所有素材和知识来自于李宏毅老师，以文字+截图的形式展现，方便大家快速阅读欢迎大家有能力多多支持李宏毅：GPT-4o背後可能的語音技術猜測。

2024-06-23 09:00:00 1322 1

原创【AI技术】主流Agent思想研究——Cot+ReAct+Reflexion

从24年初开始的时候，吴恩达（Andrew Ng）、Harrison Chase（LangChain创始人）等人开始在红杉资本AI论坛等公开场合，提倡Agent、workflow、flow engineering等概念，整个Agent和大模型结合的范式在2024年逐渐由学界研究转到终端应用的实际开发与实践上，大量的软件架构（Langchain、LlamaIndex、MetaGPT）等逐渐建设整个agent 生态吴恩达观点：2024年，目前通过Reflection（反思）和外部工具的调用，是比较成熟的技巧；通

2024-06-20 10:00:00 3421

空空如也

空空如也