AI大模型在测试领域应用案例拆解:大模型赋能测试设计生成

导语:接上一期,本次拆解案例来自于2024年QECon大会北京站-字节跳动。


1. 测试设计生成背景

  • 测试设计避免无效测试投入,测试设计是智能测试的基础。
  • 测试设计天生具有复杂性,不仅仅只是编写测试用例。好的测试设计需要回答“测不测”、“怎么测”、“谁来测”3个问题。
  • 在以人为主的质量保障阶段,主观判断有局限性,易受影响且依赖经验,这些正是需要大模型来解决的问题。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

2. 探索与实践

借助大模型,构建风险识别、风险应对、测试设计3大能力,目前做的最好的还是在测试设计部分。测试设计过程中需结合前两者进行辅助重点优化。初步设想是在需求评审和排期阶段完成后,自动生成用例并推送。

在这里插入图片描述
在这里插入图片描述


3. AI工程

相比于上一期提到的趣玩科技,字节跳动的应用明显就高了一个level,毕竟地主家余粮多的事。他们并没有直接使用通用大模型,而且针对性的训练了风险分析模型和测试设计生成模型,而且搭建了一整套AI工程架构。有实力的企业可以学起来。

在这里插入图片描述
在这里插入图片描述
同时,在模型训练的过程中,还对数据质量进行了梳理和清洗。可以看到字节总共使用了55W需求数据、10W风险数据、250W用例数据。在大模型时代,数据才是关键资产,就拿其中的风险数据来说,有多少公司可以做到真正去梳理沉淀测试风险呢,又有多少公司可以完完整整写好高质量的需求规格文档呢。没有这些基础知识的沉淀,别想着AI能给你带来多大的提升,去把基础的研发测试流程建立好反而效果来得更快。

在这里插入图片描述

有了数据,接下来就是数据的处理,这里不可避免地会遇到多模态问题,就拿我们公司内部来说,测试用例的形式都各不相同,有使用Excel的,有使用思维导图的,其中还涉及截图等。这些都是要进行相应处理的。

在这里插入图片描述

关键的地方又来啦,模型训练始终绕不过Prompt优化,这个偷偷记下来吧,说不定哪天自己能用上。

在这里插入图片描述

当时对比模型的时候,DeepSeek还没出来,我相信今年他们内部肯定也会进行再次对比验证了,效果应该会提升不少。

在这里插入图片描述

RAG的检索增强技术也是少不了,基本上能想到的技术字节都给用上了,这也是大厂的底蕴。但是我不太建议所有的公司都去这么做,还是要评估自身的实力水平。我推荐的方式还是知识库外挂,模型可以随时切换,这样就能最大限度的享受大模型本身飞速发展的红利,否则训练和替换的成本会非常高。说不定哪天又出了个DeepDrink呢图片

在这里插入图片描述


4. 应用效果

说到效果,首先要明确指标,这里字节给出了几个测试设计生成评测指标,非常具有借鉴意义。
在这里插入图片描述

核心指标

指标计算公式优先级
用例采纳率(完全)采纳条数/生成总条数P0
用例覆盖率(完全)覆盖条数/需求用例总数P0
用例增益率增益条数/总条数P0
功能用例采纳率功能用例采纳条数/生成总条数P1

在这里插入图片描述

效果示例

最终的实际效果更是十分可观,需求测试及采纳率高达79%,覆盖率到了38%,而在重服务端的业务下,采纳率更是达到了83%,最终总体的需求投入下降了33%。大厂出手,不服不行。

在这里插入图片描述

在这里插入图片描述


关注公众号【关于那些的个人观点】,发送消息“智能化测试”,获取完整内容PDF

<think>嗯,用户问的是大语言模型和机械臂如何结合,我需要先理解这两个概念以及它们可能的结合点。大语言模型(LLM)像GPT这样的,擅长理解和生成自然语言,处理复杂指令。机械臂则是工业自动化中的常见设备,执行物理操作。结合的话,可能需要让LLM作为控制机械臂的“大脑”,或者优化其操作流程。 首先,用户可能想了解如何利用LLM的自然语言处理能力来简化机械臂的控制,比如通过语音或文本指令直接指挥机械臂完成任务。这可能涉及到意图识别、任务分解和路径规划。例如,用户说“把杯子放到左边”,LLM需要解析这句话,确定物体的位置,然后生成相应的控制指令给机械臂。 然后,考虑到用户可能的背景,他们可能是工程师、研究人员,或者对自动化技术感兴趣的人。他们可能想了解实际应用场景,比如工业自动化、医疗手术、家庭服务机器人等。需要举例说明不同领域的应用,这样更具体。 另外,用户可能想知道技术挑战,比如如何保证指令的准确性,避免误解导致的操作错误,或者实时性要求。机械臂的控制需要精确的坐标和动作序列,LLM在生成指令时可能需要结合环境传感器数据,如摄像头或力反馈,来调整动作。 还有可能用户关心的是交互方式,是否可以通过自然语言进行编程,降低使用门槛。例如,非专业人员可以直接用日常语言指导机械臂完成任务,而无需编写复杂的代码。这时候需要LLM将自然语言转化为机器可理解的指令,可能涉及到中间层的转换或API调用。 安全问题也是一个重点,尤其是机械臂在物理环境中操作,错误的指令可能导致危险。需要讨论如何确保LLM生成的控制指令经过验证,或者在执行前进行模拟测试。 此外,可能需要提到人机协作的场景,LLM作为中介,帮助人类和机械臂更高效地合作。例如,在工厂中,工人用语音指示机械臂协助组装零件,LLM实时解析指令并协调机械臂的动作。 还有一点是自适应学习,LLM可以根据历史操作数据优化机械臂的任务执行策略,比如通过学习不同任务的完成情况,调整动作参数,提高效率。 总结下来,回答需要涵盖应用场景、技术实现方式(如指令解析、任务分解、控制指令生成)、交互方式的改进、安全考虑以及可能的自适应学习等方面。同时,要举例说明,让内容更易懂,并指出当前的技术挑战,如实时性、准确性和多模态数据融合等。</think>大语言模型(LLM)与机械臂的结合,是**自然语言处理技术与物理自动化设备融合**的前沿方向。这种结合能够予机械臂更智能的交互能力和灵活的任务适应性,以下是主要结合方式和应用场景: --- ### **1. 自然语言指令控制** - **核心逻辑**:用户通过语音或文本下达指令,大语言模型解析后生成机械臂可执行的代码或动作序列。 - **示例**: - 用户说:“把红色积木叠在蓝色盒子上”,LLM理解意图后,结合视觉系统定位物体,规划抓取路径并控制机械臂完成操作。 - 工业场景中,工人用自然语言指示机械臂调整生产线参数(如“将焊接速度降低20%”)。 --- ### **2. 复杂任务分解与规划** - **挑战**:机械臂需完成多步骤任务(如“组装一台电脑”),但传统编程无法灵活应对动态环境。 - **LLM的作用**: 将模糊指令拆解为子任务(拆箱、安装CPU、固定螺丝等),结合环境感知(如摄像头反馈)实时调整动作顺序,甚至处理异常(如零件缺失)。 --- ### **3. 零样本学习与自适应操作** - **传统限制**:机械臂需针对特定任务预编程,难以应对新场景。 - **LLM能**: 通过语义理解关联已知技能(如“拧螺丝”动作库)和新任务(“组装家具”),实现无需额外训练的快速适配。例如,LLM根据说明书文本自动生成机械臂组装流程。 --- ### **4. 人机协作与教学** - **交互场景**: - 工人通过对话指导机械臂:“刚才的抓取位置偏右,下次左移2厘米”,LLM翻译为参数修正。 - 教育领域:用户用自然语言“教”机械臂画画或写字,LLM将笔画描述转化为运动轨迹。 --- ### **5. 多模态融合增强感知** - **结合传感器数据**: LLM整合视觉(摄像头)、触觉(力反馈)和语言信息,实现更精准的操作。例如,在医疗场景中,LLM根据医生指令(“小心避开血管”)调整手术机械臂的力度和路径。 --- ### **技术挑战** - **安全性与可靠性**:避免语言歧义导致错误动作,需设计校验机制(如模拟预执行)。 - **实时性**:LLM推理速度需匹配机械臂控制的毫秒级响应需求。 - **多模态对齐**:将语言指令与物理世界的坐标、力度等参数精准映射。 --- ### **应用场景** - **工业制造**:柔性生产线、故障应急处理。 - **家庭服务**:老人护理、家务助手(如“倒水”“整理房间”)。 - **医疗**:手术辅助、康复训练。 - **科研**:实验室自动化(如“每隔3小时混合试管A和B”)。 --- ### **案例参考** - **谷歌RT-2**:将视觉-语言模型(VLM)与机器人结合,实现“看到红色方块后捡起它”的泛化操作。 - **OpenAI Codex + 机械臂**:通过自然语言生成控制代码(如“将手臂移动到X=30,Y=50位置”)。 --- 这种结合正在推动机器人从“预编程工具”向“自主智能体”进化,未来可能彻底改变人机协作模式,让非专业人员也能通过自然语言高效操控复杂机械系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值