- 博客(175)
- 资源 (3)
- 收藏
- 关注
原创 copilot:Configure chat session
以下是 VS Code Copilot Chat 官方文档中部分的核心内容汇总,覆盖四大模块。
2026-03-11 21:55:53
322
原创 Copilot Agents : Built-in agent(Agent、Plan、Ask) 与 Custom agent
Copilot 内置的三类基础智能体(Agent、Plan、Ask),是无需配置、直接可用的核心能力入口,对应不同的任务处理逻辑;:通过.agent.md文件定义的“智能体配置模板”,可指定角色、工具权限、运行规则,能复用在 Local/CLI/Cloud Agent 中,是对内置智能体的个性化扩展。官方定义的 Custom agent 是“基于.agent.md.agent.mdBuilt-in agent 是基础。
2026-03-11 17:37:42
418
原创 新版vscode+ copilot 下 copilot Agent 类型
这份汇总严格贴合VS Code官方定义,从运行形态、核心组件部署、核心能力、适用场景四大维度,清晰区分三类Agent的核心差异,帮你快速定位不同场景下的最优选择:VS Code内的本地实时AI开发搭档,聚焦「交互式、探索性、轻量级」本地开发,是“边聊边做”的实时协作工具。本地机器的后台AI自动化工具,聚焦「非交互式、确定性、批量/高风险」本地开发,是“一次指令、后台完成”的自动化执行工具。GitHub云端的自治编码协作工具,聚焦「团队协作、云端仓库操作、无需本地环境」的开发任务,是“云端执行、团队共享”的协
2026-03-11 17:31:32
515
原创 OpenClaw 架构与组件说明
说明 OpenClaw 的主要组件、职责、数据流、运维要点、常见故障与排查,以及扩展建议。适合作为运维与开发参考。场景:Feishu 收到消息但机器人不回。场景:长耗时 agent 导致主会话阻塞。A. Gateway(运行时中枢)场景:skill 运行时报错或超时。OpenClaw 架构与组件说明。YFinance / 美股 港股。通达信 API / 第三方行情。Tushare / A股 数据。场景:cron 未触发。Serper / 搜索。外部平台 / 数据源。
2026-02-08 20:32:30
2050
原创 RISC-V VP 中 TLM 精度
核心支持:原生适配RV32GC/RV64GC指令集架构,支持多核心仿真、虚拟内存(MMU)、中断控制器、通用外设(UART、SPI、Timer等);集成能力:可无缝对接FreeRTOS、Zephyr等嵌入式操作系统,提供basic-c等示例工程,覆盖基础指令验证、性能统计、调度器测试等场景;架构特性:采用TLM-2.0总线作为模块间通信核心,支持“功能建模+时序注释”的分层设计,便于用户扩展自定义硬件模块(如NPU、DMA、AI加速器等)。精度等级英文全称核心特征无时序(UT)
2026-01-28 12:20:39
664
原创 RAGFlow 专属 RAG 搭建指南
在分块编辑页面,点击「选择模板」→「自定义模板」,进入自定义配置页面。配置2个核心参数(均有滑块,可拖动调整,也可手动输入数值):分块大小(字符数):单个分块的最大字符数,取值范围50-2000。小粒度(50-300):适合关键词密集、需要精准匹配的文档(如产品型号、编号、条款)。中粒度(300-800):适合普通文本,平衡「语义完整」和「检索精准」(推荐)。大粒度(800-2000):适合逻辑连贯的长文本(如论文、方案),避免语义断裂。
2026-01-27 16:40:42
646
原创 「指挥 AI 能力」的方法论
如果你的Agent是自定义开发的,或框架不支持MCP协议,可使用RAGFlow提供的通用HTTP Open API,直接调用检索接口,优势是「无框架限制、灵活度高」。# 1. 配置核心参数RAGFLOW_API_URL = "http://你的服务器IP:8000/api/v1/knowledge_base/retrieve"KB_ID = "你的知识库ID"OPENAI_API_KEY = "你的OpenAI API密钥"# 2. 调用RAGFlow API获取检索结果。
2026-01-27 16:17:19
971
原创 使用vllm+cline 在本地部署Agent
步骤:包括先决条件(驱动/CUDA/GPU 显存)、在 Python 虚拟环境安装 vLLM(及常见加速依赖)、如何把 vLLM 以 OpenAI-compatible HTTP 接口跑起并暴露到本机,以及如何在 VS Code 的 Cline 插件中指向该服务并做调试/安全加固。最后会附上故障排查要点和资源建议。在 Ubuntu/Linux,且有 NVIDIA GPU 与合适的驱动。
2026-01-27 12:00:32
816
原创 Agent+RAG 上下文过长导致显存不足的问题
解决上下文过长+显存不足的核心是「减少 token 量」和「优化显存效率」,优先从业务层(上下文优化)入手,而非直接升级硬件;模型量化+FlashAttention 是性价比最高的技术优化手段,几乎适配所有场景;RAG/Agent 可通过「检索精简」「任务拆解」从场景层面规避长上下文问题,比纯技术优化更高效。RAG 之所以是上下文冗余的主要来源,核心是它直接引入了外部、大体积、低纯度的文档片段。
2026-01-20 22:14:11
504
原创 在VSCode中接入DeepSeek模型
在VSCode和Copilot环境中接入DeepSeek模型,主要有三种方案。它们的核心区别在于,你是想完全,还是简单地,或是。你可以根据下表的对比来选择最合适的方法。
2026-01-16 15:45:08
980
原创 芯片BES
芯片BES(后端签核)阶段签核项清单与验收标准**核心目标**:确保芯片物理设计满足**功能、时序、功耗、可靠性、可制造性**全维度要求,为流片提供最终合规依据。
2026-01-14 18:43:58
608
原创 Ubuntu安装mySQL
https://dev.mysql.com/downloads/mysql/ 下载 (mysql-server_8.0.43-1ubuntu22.04_amd64.deb-bundle.tar)中的 MySQL 包,需要按照特定顺序安装这些 deb 文件,因为它们存在依赖关系。:核心是按「基础依赖 → 客户端 → 服务器核心 → 服务器主包」的顺序安装,遇到依赖问题用。该命令会自动安装缺失的依赖,然后重新执行未成功的。输入安装时设置的 root 密码即可进入数据库。
2025-08-12 16:31:06
419
原创 gem5和Spike区别
选择gem5:当需要研究微架构细节(如流水线、缓存)、全系统仿真或多架构支持时。选择Spike:当快速验证RISC-V指令功能或进行早期软件开发时。两者也可结合使用,例如用Spike验证指令正确性后,再用gem5进行性能优化。
2025-07-25 11:59:40
985
原创 FireSim 提取性能数据
在 TileLink 或 AXI 总线上插入monitor 模块,跟踪请求与响应之间的 cycle 差。能力是否支持说明✅ 提取 cycle-level latency是精确到 1 个时钟周期✅ 支持自动监控模块是如 L1DPerfEvents、MemoryPerfModel✅ 支持自定义 trace是可插入 monitor 模块✅ 支持大规模统计是可运行真实 workload 收集大量样本✅ 支持总线级 latency是TileLink/AXI 级别监控。
2025-07-23 15:53:35
1028
原创 芯片验证中的反标(Back-Annotation)
是通过将物理实现或实测数据反馈到仿真模型,以提高仿真精度的关键技术。:将布局布线后的时序信息(门延迟、线延迟)反馈到仿真模型,验证时序约束是否满足。通过分层反标,可在不同阶段平衡仿真速度与精度,确保芯片设计一次成功。:将流片后实测的时序、功耗、温度等数据反馈到模型,校准误差。:将版图物理信息(如布局、金属层厚度)反馈到仿真或分析工具。:将仿真或实测的功耗数据反馈到设计模型,优化功耗分布。:将验证用例的覆盖率或错误模式反馈到设计模型。:同时集成多种反标数据(如时序+功耗)。在芯片设计和验证流程中,
2025-07-23 12:34:37
1605
原创 Verilator总结
问题回答Verilator 是什么?开源 Verilog 到 C++ 编译器,用于高速 RTL 仿真有什么功能?支持 RTL 子集,生成高速 C++ 模型,支持 VCD 波形支持时序仿真吗?❌ 不支持,只做 cycle-accurate 功能仿真如何生成波形?用$dumpvars--trace+ C++ 调用能做性能建模吗?✅ 可以,需在 testbench 中手动统计 latency、throughput 等和 VCS 的区别?Verilator 快、免费、不支持时序;VCS 功能全、商业、支持全流程。
2025-07-23 12:14:30
1108
原创 LLM推理过程:Prefill+Decode
LLM推理的两阶段划分源于输入与输出的计算特性差异:Prefill充分利用并行性处理已知输入,Decode则通过串行和缓存复用实现高效生成。这一设计平衡了计算效率与资源消耗,是LLM落地应用的核心优化基础。
2025-07-11 17:45:45
1487
原创 Lookahead:Trie 树(前缀树)
问题答案初始内容通常为空树,或预填充一些常见 n-gram。建立过程通过插入候选 token 序列(n-gram)动态构建。作用快速匹配候选序列,减少重复计算,提高效率。更新策略动态插入新序列,删除过期序列,控制内存使用。Trie 树是 Lookahead 框架中实现高效候选序列管理的关键数据结构,通过共享前缀和快速匹配,显著提升了推理加速的效果。
2025-07-11 16:07:22
329
原创 Lookahead预生成Token机制:Jacobi迭代解码+二维窗口(2D Window)
并行本质Jacobi迭代 → 将序列生成转化为并行方程组求解2D窗口 → 通过结构化猜测约束搜索空间工程优势单次前向传播生成多候选,GPU利用率提升3倍KV缓存复用降低显存压力应用场景长文档生成、批量代码补全等高吞吐需求场景💡扩展方向与量化感知训练结合,进一步压缩计算开销拓展至多模态生成(如图文交错序列)
2025-07-11 16:03:02
1178
原创 几种LLM推理加速技术的区别
以下是自回归基线、投机采样、Medusa、EAGLE系列(EAGLE-1/2/3)及Lookahead解码技术的综合对比分析,基于其核心原理、性能指标及适用场景归纳:自回归基线投机采样(Speculative Sampling)MedusaLookahead DecodingEAGLE-1EAGLE-2EAGLE-3
2025-07-10 17:58:56
1104
原创 对比:投机采样(Speculative Decoding)和 Lookahead Decoding
投机采样(Speculative Decoding)和Lookahead Decoding是两种用于加速大语言模型(LLM)推理的技术,虽然目标相似(减少自回归解码的延迟),但核心思想、实现方式和适用场景存在显著差异。
2025-07-10 11:41:23
994
原创 蚂蚁集团(Alipay):Lookahead
该论文的核心贡献是提出了一种面向工业级场景的无损推理加速框架问题精准定位:针对RAG系统延迟瓶颈,平衡准确性与实时性需求。方法创新多分支生成:通过Trie树利用历史数据分布,变串行为并行;验证保障:VA机制确保输出一致性,消除近似风险。落地价值:在支付宝等金融场景中验证了2倍+加速比,为高并发服务提供新范式。数据高效性:利用RAG场景的检索内容直接构建候选序列,降低计算冗余。工程普适性:无需微调即可适配主流模型,支持工业级部署。
2025-07-09 20:30:18
1066
原创 投机采样(Speculative Decoding)
范式,在保证生成质量的前提下显著降低主模型的计算负载,是当前LLM推理加速领域的重要突破。核心思想是通过并行预测和验证候选Token序列,减少自回归解码的延迟,同时保持生成质量无损。,并通过系统级优化(如缓存复用、动态批处理)进一步释放性能潜力。,从而减少主模型的计算量,同时保持生成结果的准确性。的技术,其核心思想是通过。
2025-07-09 19:49:40
1530
原创 Firmware(固件)和 Runtime(运行时)
两者的关系类似于“高速公路”与“交通规则”——Firmware 提供道路(硬件能力),Runtime 制定规则(任务调度),共同保障系统高效运行。两者的关系可以类比为“操作系统内核”与“进程调度器”的关系:Firmware 提供底层能力,Runtime 利用这些能力管理具体任务的执行。Firmware(固件)和 Runtime(运行时)在系统架构中紧密协作,但职责不同。** 分层架构中的角色**
2025-07-09 16:56:24
1291
原创 KV Cache(Key-Value Cache)原理和应用
KV Cache是Transformer推理的基石技术,通过缓存历史K/V向量解决了自回归生成的效率瓶颈。随着模型规模扩大和应用场景复杂化,KV Cache的优化(如压缩、动态管理)仍是提升大模型落地能力的关键方向。
2025-07-09 15:00:24
1073
原创 大语言模型(LLM)按架构分类
当前趋势显示Decoder-Only架构(如GPT-4、Llama 2)通过指令微调也能实现部分理解任务能力,但专业场景仍推荐专用架构。
2025-07-03 11:48:29
1265
原创 BERT(Bidirectional Encoder Representations from Transformers)
BERT是一种专注于语义理解的LLM,通过双向Transformer编码器预训练获得上下文感知的文本表示,擅长NLU任务但无生成能力。它奠定了现代LLM的基础范式,与GPT等生成模型形成互补。
2025-07-03 11:24:32
474
原创 LLM的推理过程
理解这些阶段有助于针对性优化(如降低长prompt的Prefill开销,或提高Decoding的并行度)。,还包含多个关键阶段,每个阶段对性能和资源消耗有不同的影响。在大型语言模型(LLM)的推理过程中,除了。:生成每个输出token时。
2025-06-16 17:24:56
1078
原创 LLM的推理和训练过程
2. 模型预训练目标:通过自监督学习获取语言建模能力。核心方法:自回归建模(如GPT):预测下一个token,损失函数为交叉熵。掩码建模(如BERT):随机遮盖token并预测。计算特点:硬件需求:千卡GPU集群(如A100/H100),显存优化(ZeRO-3、梯度检查点)。并行策略:数据并行:拆分batch到多GPU。张量并行:拆分模型层(如Megatron-LM的层内并行)。流水线并行:拆分模型块(如GPipe)。代码示例(PyTorch):3. 指令微调
2025-06-16 16:53:16
1173
原创 XAttention 计算步骤详解及示例
来优化长序列 Transformer 模型的推理效率。以下是其核心计算步骤及具体示例。XAttention 是一种高效的块稀疏注意力机制,通过。XAttention 在长文本和视频任务中可加速。的注意力权重,并加权聚合。,同时保持全注意力的精度。
2025-06-13 19:35:54
684
原创 SageAttention2原理和计算过程
概述SageAttention2 是一种高效的自注意力机制优化方案,通过结合离群值平滑(Outlier Smoothing)和逐线程 INT4 量化(Per-thread INT4 Quantization),显著提升 Transformer 模型的推理效率,同时保持较高的模型精度。该方法特别适用于大语言模型(LLMs)和高吞吐量推理场景。核心创新点Thorough Outlier Smoothing(离群值平滑)问题背景。
2025-06-13 19:20:47
1332
原创 SDPA(Scaled Dot-Product Attention)详解
(Scaled Dot-Product Attention,缩放点积注意力)是 Transformer 模型的核心计算单元,最早由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》提出。它通过计算查询(Query)、键(Key)和值(Value)之间的相似度,生成上下文感知的表示。这个例子展示了 SDPA 如何动态分配注意力权重,并生成上下文感知的输出。我们通过一个具体的数值例子,逐步演示 SDPA 的计算过程。因此,注意力权重矩阵。
2025-06-13 17:33:15
1454
Go语言编程 epub电子书
2018-09-21
区块链技术指南—电子书
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1