自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(242)
  • 收藏
  • 关注

原创 【大模型】Agent 安全防护设计

摘要: Agent安全涉及防范智能代理(具备工具调用、长期记忆、自动执行等能力)的多维威胁,如提示词注入、工具层注入、数据外泄等。企业需构建六层防护架构:1)Prompt隔离层(指令不可覆盖);2)工具沙箱(白名单限制);3)权限系统(RBAC/ABAC);4)Memory隔离(数据脱敏);5)执行审批(高风险操作人工确认);6)输出过滤(敏感内容检测)。主流框架通过策略(如OpenAI的JSON约束、Anthropic的安全指令优先级)增强防护,企业需按基础级(如日志审计)、进阶级(如沙箱)、高阶级(如红

2026-03-23 14:54:54 215

原创 【大模型】简单介绍现在最火的openclaw具体架构

OpenClaw内置Headless Chrome,通过 Chrome DevTools Protocol (CDP) 实现点击、输入、滚动、截图、抓取DOM,能力包括自动填表、自动登录、自动抓数据、自动操作网站。保存用户信息、任务结果、经验总结;OpenClaw默认四个核心工具:read、write、edit、bash,即读文件、写文件、编辑代码、执行命令;每个 Agent 有独立配置:agent_config、system_prompt、model、tools、channels、memory。

2026-03-09 20:42:47 681

原创 【大模型评测】Demystifying evals for AI agents原文

摘要: 本文探讨了AI智能体评估的挑战与方法。智能体的自主性和灵活性使其评估变得复杂,但有效的评估能提前暴露问题,提升产品信心。评估方法包括单轮与多轮测试,结合代码、模型和人工评分,针对不同智能体类型(如编程、对话、研究)设计特定评估策略。关键步骤包括定义明确任务、构建平衡问题集、设计稳健评估框架,并结合多种评分方式。评估应贯穿智能体开发全周期,早期投入可加速迭代,避免后期被动修复。文章还介绍了评估框架工具,强调任务质量比工具选择更重要。

2026-03-06 18:11:39 424

原创 【大模型】如何写一个Agent ?

本文系统介绍了智能Agent的实现原理与应用实践。首先阐述了Agent的核心概念(感知-决策-行动-记忆循环)和基础架构(LLM+记忆+工具集)。然后详细讲解了ReAct模式及其Python实现,展示了如何通过交替思考与行动完成任务。进阶部分介绍了使用LangChain快速构建Agent的方法,以及自主规划型Agent(AutoGPT范式)的实现思路。文章还提供了智能助手Agent的完整架构设计,包含记忆管理、任务调度等模块,并演示了多场景应用示例。最后总结了关键设计原则(工具可靠性、提示词清晰等)、常见问

2026-03-06 16:24:00 200

原创 【大模型】系统级智能体(System-Level Agent)概述

系统级智能体(Agentic AI)是基于大模型的自主智能代理,能够主动规划、分解和执行复杂任务。其核心架构包括推理引擎、内存机制、调度模块和执行者等组件,通过多智能体协作实现任务处理。相比传统工具链,系统级智能体具备自主性、协同能力和长期记忆等优势,已应用于自动化编程、数据分析等领域。代表性系统包括Auto-GPT、BabyAGI等,采用不同协作策略。尽管面临稳定性、安全性等挑战,但未来将向人机协作、跨模态集成等方向发展。开发建议包括模块化设计、数据准备和监控机制等。

2026-03-06 14:15:43 412

原创 【大模型】OpenClaw 如何实现自动构建、代码检查、自动部署

OpenClaw是一个基于LLM的任务执行系统,其核心原理是让AI理解任务后调用系统工具执行操作,而非直接部署。系统采用ReAct模式循环:LLM解析指令→规划步骤→调用工具(Shell/API/Git等)→处理结果→判断后续操作。它能自动完成项目构建(如执行pip/npm命令)、代码检查(结合linter工具分析)和部署(运行脚本/Docker/CI)。关键技术包括Shell执行、文件访问、Git控制和任务规划器。这种架构让AI获得终端操作权限,存在潜在安全风险(如恶意命令执行),因此需谨慎部署。整个系统

2026-02-28 17:19:45 1026

原创 【大模型】上下文缓存机制到底是什么?

上下文缓存机制(KVCache)通过存储Transformer模型中已计算的Key和Value张量,避免重复计算历史token的attention结果,将复杂度从O(n²)降为O(n)。该技术在多轮对话、长文本生成等场景能显著提升推理速度、降低计算成本,但仅在当前会话内有效,不改变模型的最大上下文长度限制。与长期记忆系统不同,上下文缓存是纯粹的推理优化机制,通过重用中间计算结果来加速响应,而不会跨会话保留信息。随着上下文增长,缓存会占用更多显存,但对模型能力本身没有增强作用。

2026-02-28 17:12:12 497

原创 【大模型】Claude code的原理是什么?Anthropic 的 Claude Code 原理解析

ClaudeCode是Anthropic推出的智能编程代理工具,通过整合大语言模型与工具调用能力实现自动化编程。其核心架构包含五层:用户指令→Claude模型推理→代理决策→工具调用→执行反馈,形成闭环循环。关键技术包括:LLM决策引擎、结构化工具调用(文件读写/终端执行等)、多轮代理循环、智能上下文管理(压缩历史/工作记忆)以及沙箱执行环境。与普通聊天模型相比,ClaudeCode具备文件操作、终端执行和项目状态维护能力,实现了"思考-执行-反馈"的编程闭环,而非单纯回答问题。该技术融

2026-02-28 16:49:03 1600

原创 【大模型】现在最火的OpeClaw是什么东西?

OpenClaw是一个开源的 AI 代理系统,本质上是一个可以“替你执行任务”的 AI,而不仅仅是回答问题的聊天机器人,它的特点包括:(维基百科自动执行任务:可以管理邮件、日历、浏览网页、运行脚本、处理文件等,而不需要每一步都手动确认。本地运行(自托管):软件运行在自己的电脑或服务器上(macOS、Windows、Linux 都支持),而不是在云端服务器完全控制。集成聊天平台:可通过 WhatsApp、Telegram、Discord、Slack 等 IM 平台下达指令或与其互动。扩展能力强。

2026-02-28 16:29:54 1922

原创 什么是认知科学?

认知科学是一门研究心智如何工作的跨学科科学,核心是探索人类感知、记忆、思维和意识的运作机制。它融合心理学、神经科学、语言学、计算机科学等六大支柱学科,经历了行为主义、认知革命和连接主义三个发展阶段。认知科学提出了计算主义、连接主义和具身认知三大理论模型,其研究成果已广泛应用于教育、AI、医学等领域。经典实验如"7±2"记忆法则揭示了人类认知规律,而前沿问题如意识计算化仍在探索中。该领域通过多学科交叉,持续深化对人类心智本质的理解。

2026-02-26 18:39:19 1005

原创 【大模型评测】模型评测QA问答

模型评测的核心目标是评估模型在真实场景下的可控性,而非单纯追求指标提升。评测需关注三大关键点:1)构建包含ID/OOD和多轮对话的测试集,通过方差分析和尾部分位数评估稳定性;2)指标设计要区分能力问题和风险问题,设置分维度门禁和一票否决规则;3)评测结论应明确模型能力边界和风险场景,为上线决策提供依据。当线下指标与线上体验出现矛盾时,往往反映评测未覆盖用户敏感点,需引入行为指标和风险阈值来优化评测体系。最终目标是通过系统性评估,实现风险可控的模型部署。

2026-02-10 11:09:46 368

原创 【大模型评测】模型学会「安全但偷懒」的策略,这是模型变差了吗?

文章摘要:模型表现下降需区分能力退化与策略调整。能力退化指模型无法完成原本能做的任务,而"安全但偷懒"是模型为规避风险主动选择保守策略。典型案例显示,客服模型为避免错误转向简单回答,考试策略调整也同理。关键判断标准是:强制回答时若能完成,则属策略变化而非能力下降。区分二者需通过强制测试、解除风险约束等方法,观察模型在能力释放条件下的真实表现。

2026-02-10 10:58:29 257

原创 【大模型评测】线下指标很好,线上用户体验变差,不是模型退化了,是评测错了。怎么理解?

摘要:模型评测结果与线上表现不符时,往往不是模型能力退化,而是评测体系设计存在问题。常见评测错位包括:指标奖励投机行为(如Accuracy上升但满意度下降)、评测维度与用户需求不匹配(如只测答题能力而非实际效用)、数据分布偏差(评测集过于理想化)、忽视尾部风险(平均分掩盖严重问题)、未测稳定性(忽略随机性影响)以及混淆模型与系统评估。有效评测应关注用户真实需求、风险场景和系统稳定性,而非单纯追求指标提升。当出现线下高分与线上体验不一致时,需优先检查评测设计是否准确反映了真实场景。

2026-02-09 20:47:04 720

原创 【大模型评测】模型评测(Model Evaluation) / AI Quality / Eval Engineer 岗位区别

文章摘要:模型评测、AI质量和评测工程师三个角色各司其职:模型评测关注模型能力提升(构建数据集、设计指标);AI质量把控用户体验与风险(错误分级、上线策略);评测工程师确保评测可靠性(自动化流水线、版本管理)。三者形成研发流程闭环,分别回答"模型强不强"、"能不能用"和"评测是否可信"三个关键问题。职业发展可向算法研究、质量管控或工程平台三个方向延伸,大模型评测需综合这三方面能力。

2026-02-09 20:25:19 415

原创 【大模型评测】怎么做稳定性评测及可复现?

模型稳定性评测是确保线上可靠性的关键。通过重复采样(Bootstrap、子集采样、Prompt扰动)获得分数分布,分析均值、方差及分位数(如P5/P95)。稳定性标准要求Std<0.03且P5不低于基线3%。同时必须保证可复现性:固定随机种子、数据版本化管理(记录样本量/来源/过滤规则)。上线需满足N≥30次测试,固定数据版本和种子,并通过所有稳定性指标检验。这种量化评估方法能有效避免线上"翻车"风险。

2026-02-09 20:14:36 374

原创 【大模型评测】如何判断什么时候该扩数据 / 改指标 / 限功能?

摘要:线上AI模型问题可分为三类:能力不足需扩数据(错误稳定可重复)、指标错位需改指标(线下指标与用户体验不符)、风险不可控需限功能(低频高危错误)。决策流程应依次判断:错误是否可复现→指标是否真实反映价值→失败代价是否可接受。扩数据要针对性补充案例,改指标需引入用户行为维度,限功能则要隔离高风险场景。核心原则是:评测不是帮助模型上线,而是防止模型在不该上的地方上线。(149字)

2026-02-09 17:45:21 443

原创 【大模型评测】为什么:线下高分 ≠ 线上稳定?

摘要:模型线下高分与线上稳定存在本质差异,原因包括:1)数据分布变化(ID≠OOD);2)线下平均指标掩盖线上极端错误;3)用户交互改变输入分布;4)线上错误会引发连锁反应。评测应遵循四大原则:关注尾部风险而非均值、加入OOD测试、重视多轮一致性、设置安全门禁。核心在于通过评测限制模型的最差表现,而非单纯追求高分。线上稳定性要求模型在真实复杂场景中不"翻车",这比模拟环境下的优异表现更具实际价值。

2026-02-09 16:28:06 312

原创 【大模型评测】模型评测 / AI 测试岗位的核心能力都有什么?

本文系统梳理了AI模型评测能力的五个进阶层次:1)基础指标认知(准确率等指标的正确使用);2)评测方案设计(数据集构建与指标体系);3)泛化能力评估(识别分布变化与风险);4)工程化实现(自动化评测系统建设);5)风险决策(将评测转化为商业决策)。文章强调评测的核心价值不在于分数本身,而在于通过分层能力建设,准确预判模型在实际应用中的风险,最终实现从技术指标到商业价值的转化。每个层级都列举了典型能力要求和常见误区,为评测工程师的成长路径提供了清晰框架。

2026-02-09 16:17:19 655

原创 【大模型评测】从模型评测角度 介绍 主成分分析(PCA)和探索性因子分析(EFA)

摘要:主成分分析(PCA)和探索性因子分析(EFA)是两种常用的数据分析方法。PCA是一种数学降维技术,通过线性变换将多个相关变量压缩为少数综合变量,保留最大方差信息,适用于模型评测等工程场景。EFA则是一种统计建模方法,通过分析变量相关性识别潜在因子结构,适用于探索用户行为背后的心理机制。实际应用中可结合两者优势:先用EFA分析问题维度(如内容质量、交互体验等),再用PCA生成综合评分用于决策。这种组合方法既能解释用户需求,又能实现高效量化评估,适用于构建多层次的模型评测体系。

2026-02-09 15:23:24 1091

原创 【大模型评测】多轮对话数据集怎么构造?

多轮对话数据集是大模型评测的核心,它能全面评估上下文理解、状态记忆、目标坚持等关键能力。评测应聚焦1-2个核心能力,采用标准结构记录元信息。主流构造范式包括状态递进型、约束保持型、纠错型和目标驱动型。难度可通过轮数、信息密度和干扰方式调节。标注需关注行为而非答案,避免常见问题如对话过长或能力混杂。建议从100条5-7轮对话入手,优先测试上下文记忆和指令遵循能力,采用人工+LLM双标注确保质量。

2026-02-06 21:15:53 896

原创 【大模型评测】怎么构造 ID / OOD / 多轮数据集?

摘要: 本文系统介绍了AI评测数据集的构建方法,分为同分布(ID)和分布外(OOD)数据。ID数据需覆盖70%真实用户问题,来源包括搜索日志、FAQ等,需去重、分意图并标注标准答案;OOD数据侧重模型易错场景,如模糊表达、组合问题等。多轮对话需任务驱动,关注目标完成度而非单轮正确性。建议比例:ID 60%、OOD 25%、多轮15%。关键原则:评测集≠训练集、样本必须可判定、优先覆盖高风险场景。

2026-02-04 16:01:05 536

原创 【大模型评测】数据集一变,指标就失去可比性,我们应该怎么做?

摘要: 数据更新后模型评估需先判断可比性:仅新增样本或删除噪声可对比,其他情况(如分布改变、指标调整等)需谨慎。不可比时采用锚点机制(AnchorSet)——冻结的小型评测集,用于跨版本对比。标准流程:同时评估新旧模型在AnchorSet和新数据集的表现,确保模型不退步(Anchor指标稳定)、当前可用(新集达标)且风险可控(L3指标)。若无AnchorSet,可回放旧模型、难度校准或Pairwise胜率评估。决策需综合纵向对比、横向达标和风险兜底,最终结论示例显示模型通过测试即可上线。(149字)

2026-02-04 15:35:54 464

原创 【大模型评测】大模型的评测指标体系如何设计?

本文提出了大模型问答/对话能力的评测框架,重点评估搜索场景下的核心风险。评测目标包括正确回答、多轮对话能力,避免误导、答非所问等风险。评测集合分为ID(60%)、OOD(15%)、BadCase(10%)等5类。指标体系分为三层:L1业务级指标(问答成功率≥85%、多轮完成率≥75%),L2能力诊断指标,L3风险控制指标(幻觉率≤2%)。上线需满足所有L1指标且L3不触发风险,同时要求相比基线性能不下降超过2%。评测采用LLM-Judge自动评分和5%人工抽样相结合的方法,重点关注回答是否误导用户。

2026-02-04 15:17:00 975

原创 人形机器人的模型怎么进行测试?

人形机器人测试是一个复杂的系统工程,需要采用"金字塔式递进"的5层测试框架:从感知模型(L1)、决策规划(L2)、控制模型(L3)到系统闭环(L4)和真实环境安全测试(L5)。测试重点不在于模型准确率,而是关注极端情况下的稳定性、长期运行的可靠性以及人机交互安全性。关键测试指标包括摔倒概率、稳定裕度、任务完成率等,必须通过仿真、半实物到真人环境的逐步验证,确保机器人能在真实世界中安全、稳定、可重复地完成任务。

2026-01-27 16:14:54 687

原创 Lasso 回归 和 弹性网络回归(Elastic Net) 的区别

Lasso回归和弹性网络回归(ElasticNet)是两种常用的正则化线性回归方法。Lasso通过L1正则化实现特征选择,但处理高相关特征时不稳定;ElasticNet结合L1和L2正则化,既能特征选择又能稳定系数。ElasticNet需要调节α(L1/L2比例)和λ(惩罚强度)两个超参数,可通过交叉验证选择最优组合。实际应用中,ElasticNetCV可自动完成参数优化,适合特征多且相关性强的情况,而Lasso更适用于简单特征选择场景。两种方法都需特征标准化,ElasticNet在保持稀疏性的同时提供了更

2026-01-26 09:48:46 659

原创 Agent Policy 自动搜索(Failure-as-Reward)

本文提出了一种端云协同Agent的自动策略学习方法,其核心目标不是提升智能程度,而是最小化系统故障风险。该方法将故障分类映射为负向奖励,在固定场景下搜索"失败最少、代价最小"的策略。不同于传统强化学习,采用离线/模拟策略搜索和规则约束优化,重点处理稀疏奖励和硬约束问题。策略定义为风险评分、云端响应等决策参数,通过网格搜索、进化算法或LLM辅助生成候选策略。关键设计包括:故障惩罚权重大于成功奖励、安全优先的字典序比较、固定场景分布和可归因的失败分析。最终上线标准是零严重故障率而非单纯奖励最

2026-01-22 11:27:41 518

原创 【大模型评测】Failure taxonomy + JSON 场景自动生成器

✅✅✅。

2026-01-22 11:23:58 280

原创 【大模型评测】多 Agent / 多策略 A/B 评测系统

本文提出多Agent/多策略A/B评测方法,强调在相同场景下进行行为级对比。评测聚焦Agent结构、决策策略和云侧配置等维度,通过轨迹日志记录和统计分析,评估任务成功率、安全性和效率等指标。系统采用统一场景池、标准化的Agent变体描述和详尽的轨迹记录,结合规则与LLM辅助分析,实现可归因的策略对比。评测结果需关注失败分布和极端情况,而非单纯追求"更聪明"的表现,为Agent系统的策略优化和上线决策提供数据支持。

2026-01-22 11:20:42 426

原创 【大模型评测】端云协同评测 JSON Schema + Failure Taxonomy

本文提出了一套面向工业级Agent系统的评测Schema设计方案。核心设计原则包括:聚焦系统行为而非模型输出、支持自动化评估、将故障分类作为一等公民、明确责任归属。Schema采用JSON格式,包含场景元数据、初始状态、事件序列、约束条件、预期结果等模块,支持对端云协同系统的鲁棒性、安全性和决策能力进行全面评估。特别设计了详细的故障分类体系(Failure Taxonomy),涵盖感知判断、协同决策、云智能、执行安全等维度的典型故障模式,并建立故障与指标、责任方的映射关系。该方案可与LangGraph和LL

2026-01-22 11:17:46 569

原创 端云协同 + Agent 怎么做?

摘要:端云协同与Agent结合构建智能系统,端侧负责实时感知与安全执行,云侧处理深度推理与持续学习,Agent作为决策中枢协调调度。系统通过三层分工(端侧执行、云侧分析、协同控制)实现闭环工作流,关键设计原则包括端侧独立性、信息摘要化传输和故障回退机制。典型应用场景中,Agent根据置信度判断本地执行或云端调用,形成"感知-决策-执行-评测"的完整链路。该架构的核心在于建立可靠的失败控制机制和评测闭环,而非单纯依赖模型能力。

2026-01-22 11:07:40 327

原创 端侧模型是什么意思?

本文介绍了端侧模型的概念及其与云端模型的核心区别。端侧模型指直接在终端设备本地运行的AI模型,具有低延迟、隐私性好、可离线使用等优势,适用于手机、可穿戴设备、车载系统等场景。文章对比了端侧模型与云端模型在运行位置、延迟、隐私等方面的差异,并列举了典型应用案例。同时分析了端侧模型的技术特点,包括模型压缩、硬件依赖等特点。最后探讨了端侧模型与端侧大模型的区别,指出前者侧重单一任务优化,后者具备通用理解能力,建议采用小模型与大模型结合的混合架构方案。

2026-01-22 11:01:40 1464

原创 Ordinary Least Squares(OLS,普通最小二乘法)是什么?

OLS(普通最小二乘法)是一种基础线性回归方法,通过最小化预测值与真实值的误差平方和来估计变量间的线性关系。其核心公式为矩阵形式的解析解β̂=(XᵀX)⁻¹Xᵀy,在统计学、计量经济学和机器学习中广泛应用。OLS需要满足线性关系、误差期望为零等经典假设,具有简单可解释、闭式解等优点,但对异常值敏感且仅适用于线性建模。作为回归分析的基础,它与Ridge、Lasso等方法密切相关,是理解更复杂模型的重要起点。

2026-01-21 15:52:30 466

原创 【大模型评测】评测集建设中 刻意破坏共现统计 方法

摘要:破坏共现统计是一种模型评测方法,通过故意拆解训练数据中的常见关联组合(如专业内容与严谨表达、复杂推理与流畅语言等),来测试模型能否突破统计依赖。典型例子包括:用错字连篇表达医疗问题、情绪化语气提出理性计算需求、给律师角色布置写歌词任务等。这种方法有效检验模型是否真正理解内容本质而非依赖表面特征,特别适合研究评测,因其基于真实用户可能的行为模式,能精准暴露模型依赖统计捷径的弱点。(149字)

2026-01-15 16:21:49 314

原创 Agent 技术综述:从大语言模型到自主智能体

一个能够感知环境,并通过行动改变环境,以最大化某种目标函数的实体。以大语言模型为认知核心,结合记忆、工具、规划与反馈机制的自主决策系统。一次从模型中心主义 → 行为系统中心主义的范式转移。它要求我们同时理解:语言推理系统工程人类协作未来的 AI,需要更可靠的 Agent 系统。

2026-01-15 16:17:51 950

原创 怎么理解这句话 “随着样本量的增加,即使是微小的差异也会变得具有统计学显著性” ?

统计学显著性(p<0.05)不等于实际重要性。大样本下,即使微小差异(如0.2mmHg)也会显著,因为随机误差被平均化导致标准误减小。此时更应关注效应量和实际意义,而非单纯追求p值显著。在AI评测中,样本量大会使微小指标提升显著,但需评估其实际价值。统计检验本质是检测"是否完全相等",而非"是否有意义的差别",因此需结合效应量、置信区间和领域知识综合判断。

2026-01-15 15:26:32 241

原创 Between-model variance、Within-slice variance怎么计算的

本文介绍了机器学习模型评估中的两种关键方差指标:切片内方差(Within-slice variance)和模型间方差(Between-model variance)。切片内方差衡量同一数据切片内样本得分的波动情况,反映题目稳定性;模型间方差则评估不同模型在同一数据切片上的表现差异,反映模型能力区分度。文章详细给出了两种方差的计算公式和步骤,并建议优质评测集应满足模型间方差显著大于切片内方差,以确保评估结果主要反映模型真实能力而非数据噪声。最后提供了Python实现示例,展示了如何计算这两种重要指标。

2026-01-15 14:38:55 530

原创 【大模型评测】多模态评测工程落地指南

《多模态评测工程落地指南》摘要 本文系统阐述了多模态评测工程的完整实施框架。首先从任务空间和能力层级切入,划分了从基础感知到高级推理的多维度评估体系。在数据构建方面,详细介绍了多源数据采集、分层标注方法和合规控制策略。评测方法部分重点探讨了prompt设计、多轮交互仿真和自动化评分技术,提出结合LLM评判与人工复核的混合评估方案。针对Agent类模型,制定了包含工具调用准确率、任务完成度等指标的专用评估标准。最后构建了涵盖错误分类、诊断流程和可视化分析的BadCase体系,形成完整的质量改进闭环。文章整合了

2026-01-12 17:41:14 530

原创 【大模型评测】2025大模型评测技术方向研究

摘要:本文系统梳理了2025年大模型评测技术的研究方向与实践方法。研究从通用能力、多模态、鲁棒性、偏见与公平性、安全性等多个维度展开,详细分析了语言理解、知识问答、推理能力等核心评测指标,并探讨了多模态融合评测的特殊挑战。文章介绍了OpenCompass、EvalScope等主流评测工具平台,总结了当前评测实践中存在的数据污染、文化偏差、可复现性等问题,并展望了未来评测技术向现实场景导向、交互能力评估、安全对齐等方向的发展趋势。研究特别关注中文大模型评测的本土化需求,为构建更全面的模型评估体系提供了重要参考

2026-01-12 17:40:18 799

原创 增程系统详细介绍

增程系统(EREV)是一种以电驱为核心、发动机仅作发电用的混合动力方案。其核心架构包含动力电池、驱动电机和增程器(发动机+发电机),通过三种工作模式(纯电/增程发电/混合供电)实现高效运行。相比传统油车,增程系统结构更简单、驾驶体验更平顺;相较于纯电车,它缓解了续航焦虑;相比插混车,其系统复杂度更低。中国市场的充电设施不足和混合用车场景使其成为现阶段理想选择,但未来随着快充和电池技术进步,增程系统或将逐步被纯电取代。当前技术难点集中在能量管理策略和NVH控制上。

2026-01-12 17:39:31 965

原创 Vibe coding 是什么?

Vibecoding是程序员和AI开发者中流行的一种编码方式,强调直觉驱动的快速开发,而非严谨的工程流程。它鼓励先写出能运行的代码,再考虑优化和规范,特别适合原型开发、AI项目和技术验证。Vibecoding不是写垃圾代码,而是将工程化延后,优先保证创造力和流畅感。在AI时代,这种方式尤其重要,因为人类可以专注于判断方向,而AI负责补全细节。不过,它不适合关键系统或长期维护项目。典型流程是从vibecoding开始,逐步过渡到半工程化和完全工程化阶段。

2026-01-12 17:35:06 1843

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除