提示工程推荐：《第10章落地建议与效果评估》读书笔记-CSDN博客

本文链接：https://blog.csdn.net/alphaAIstack/article/details/147343034

探秘 AI 原生应用开发：〈提示工程原理与实战〉研读笔记系列
🛒 京东图书：https://item.jd.com/14976580.html

最近，我阅读了《AI
原生应用开发：提示工程原理与实战》一书，它为我打开了大语言模型与提示工程领域的新视野。为了更好地消化书中的知识，加深对相关内容的理解，我决定撰写一系列的读书笔记。

在这里插入图片描述

一、核心内容概述

本文聚焦于AI原生应用在落地过程中的多方面要点，涵盖落地路径建议、效果评估方法以及工程化落地面临的问题。在AI原生应用逐步推进时，需理性看待其发展，重视系统外的重塑并选择务实技术路线。同时，要通过科学的效果评估体系来衡量应用成效，目前存在多种基准模型评估工具和不同任务的评估指标与方法。此外，AI原生应用在工程化落地中还面临多阶段交互复杂、调试观测困难、分布式能力不足和跨模型迁移难等问题，需要从开发框架层面探索解决方案。

二、重点知识梳理

（一）AI原生落地路径建议

远离妄想与过度理想：在AI原生应用落地进程中，“幻想派”以低成本追求超高成果，“理想派”受宣传影响期望脱离实际。项目成功需考量技术成熟度，判断在特定业务场景下是否可行；团队准备情况，包括成员是否具备AI原生思维和技术能力；资源投入合理性，避免陷入不合理的成本与时间预期误区。
重视系统之外的重塑：企业引入先进信息系统常未达预期，AI原生应用也面临类似情况。这是因为员工工作习惯和模式难以短时间改变。要解决该问题，需使用者积极参与，以人性化关怀为核心提升其工作效率；优化组织架构，调整职责、岗位和汇报关系；重塑业务流程，评估并优化现有流程，使其与技术适配。
选择务实的技术路线：大语言模型存在能力局限，企业应权衡选择技术路线。在发展路径上，除敏感行业外，建议先优化提示，再考虑微调模型，可先使用公有云大语言模型API或部署开源模型。在使用场景选择上，优先考虑对模型错误容忍度高的场景，如企业内部、创意写作等场景。在使用方式上，可采用“人工 + 智能”模式、结合工程化解决方案或选择合适的交互方式，如明确告知用户内容由AI生成、利用多步交互降低任务难度。

（二）AI原生应用效果评估

基准模型评估：市面上有多种权威评测体系，如HELM由斯坦福大学人工智能研究所提出，测试方法全面、评价指标严谨；AGI - EVAL由微软研究团队打造，专注于衡量模型在人类认知与问题解决任务中的能力；C - EVAL是适用于大语言模型的中文评估套件，通过多学科、多层次的题目测试模型中文理解及推理能力。企业可精选3 - 5款高性能大语言模型，结合自身业务构建专项数据集评估。
AI原生应用评估：判别式模型侧重于学习决策函数或条件概率分布，评估关注分类准确率、回归误差等指标；生成式模型学习联合概率分布，大语言模型多采用此方法，其输出多样，评估需从文本生成的质量、流畅性、相关性和创造性等多方面进行。
评估指标：分类任务常用准确率、精确率、召回率和F1分数评估；回归任务采用均方误差、均方根误差和平均绝对误差衡量预测准确性；文本生成任务评估指标多样，基于词重叠率的有BLEU和ROUGE，基于词向量的有余弦相似度、欧氏距离和Jaccard相似系数等，还有针对特定任务的评估指标，如一般性文本创作的准确性、流畅性等，问答类产品的相关性、完整性等，代码生成场景的正确性、可读性等。
评估方法：自动评估基于测试集比较模型输出与参考答案，常见数据集划分策略有留出法、交叉验证法和自助法，在大语言模型评估中需构建业务测试数据集。人工评估适用于评估大语言模型生成文本的主观性指标，打分机制有对错判断、累计得分和对比评估，可通过制定标准和多人评估提高效果。大语言模型评估包括双模型协作评估和单模型自我评估，具体方法有一致性评估、关键点覆盖评估、答案对比评估和多维度打分评估，但存在主观性和模型偏好问题。市场检验评估将模型内容应用于市场，通过用户参与度、商业转化率等指标衡量，可采用A/B测试和用户反馈评估，但受市场波动等因素影响。
评估方法的选择：分类、回归任务可采用自动化评估和传统指标；文本生成任务根据有无参考答案、前一版本答案选择不同的大语言模型评估方法；人工评估和市场检验评估可作为补充或主要手段，人工评估利于深入理解内容质量，市场检验评估提供实际应用反馈。

（三）待解决工程化问题

多阶段交互的复杂性：实际应用中多数功能需多次调用大语言模型并结合其他技术分阶段协同实现，如知识库问答。目前每个开发团队独立解决该问题难度大且不经济，急需大语言模型中间件技术产品加速应用开发与落地。
调试和观测的挑战：应用复杂性导致多次调用大语言模型后成为“黑盒子”，出现问题难以定位。传统日志溯源方法复现问题现场耗费资源，开发实时调试和观测功能至关重要，有助于将应用转变为“白盒子”，加速问题排查。
分布式能力的需求：现代应用多为分布式集群系统，用户请求可能落在不同服务器上。构建有“记忆”能力的AI原生应用需考虑这一点，同时要实现用户会话数据隔离，但目前从应用开发框架层面解决此类问题的方案有限。
跨模型迁移能力的必要性：不同大语言模型性能和生成速度有差异，企业应根据业务需求选择合适模型，有时同一业务场景也需运用不同规格模型。AI原生应用应具备跨模型适应能力，避免局限于单一模型提供商，确保灵活性和未来迁移便利性。

三、学习收获与思考

（一）收获

学习本文后，我全面了解了AI原生应用从落地到评估再到工程化的各个环节。明白了在应用落地时要保持理性，充分考虑技术、团队和资源因素；掌握了多种评估模型和应用的方法及指标，能根据不同任务选择合适的评估手段；认识到工程化落地面临的诸多问题，以及解决这些问题对推动AI原生应用发展的重要性。这让我在面对AI原生应用开发相关工作时，有了更清晰的思路和方向。

（二）思考

在实际应用中，随着AI技术的快速发展，新的落地场景和需求不断涌现，如何在保证安全和质量的前提下，快速将新技术融入现有应用，实现更高效的开发和部署，是需要思考的问题。不同评估方法和指标各有优劣，如何构建一套更全面、客观且通用的评估体系，以适应各种复杂的应用场景，还需进一步探索。对于工程化问题，解决多阶段交互复杂性、调试观测困难等需要行业各方共同努力，制定统一的标准和规范，促进技术的共享与合作，才能更好地推动AI原生应用的发展。