AIGC与测试

作为互联网从业者,最近一年GPT类产品带来的冲击大家或多或少都感知得到。从最开始的新奇到病毒式扩散再到疯狂,如今的AI市场收敛了很多。但也标志着AI从之前的热门概念,转换成了真正具备生产力且能够帮助人们解决实际问题的实用工具。借助各类开源大模型、商用大模型,各行各业都在进行着AI变革。细留意的话,大家都能察觉到所在行业的变革,未来一定属于智能。

机器越来越多地取代了人类的脑力劳动,并越来越多地渗透到多种机械动能中去,人类社会进入更为自由的智能时代,人类可更加智慧、尊严、优雅地生活。-- 李德毅

AI加持下的行业变革催生出各式各样的AI产品。

什么是AIGC

AIGC(即Artificial Intelligence Generated Content),中文译为人工智能生成内容。

过去需人类通过逻辑思考与创造力才能完成的任务,现在可以通过人工智能技术来实现,并且有些任务完成的还不错。

在狭义上,AIGC是指利用AI自动生成内容的生产方式,如自动写作、自动设计等。在广义上,AIGC是指像人类一样具备生成创造能力的AI技术,它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的内容和数据。

AIGC的工作方式取决于具体的应用场景和需求。

在文本生成方面,AIGC系统可能会使用预先训练的神经网络模型,像是GPT这样的模型,这些模型能够通过学习大量的文本数据理解和生成各种语言模式。

在设计或者艺术创作方面,AIGC系统可能会使用生成对抗神经网络(GANs)与扩散模型,来生成新的、看似真实的内容。

当然,无论哪种情况,AIGC的核心目标是同一的:能够生成有意义、富有创造性并符合特定要求的新内容

AIGC商业化落地

图片来源:TE智库《企业AIGC商业落地应用研究报告》

Reise-赛博朋克

MJ:Reise-赛博朋克


AIGC落地

以文本模型为例,常用落地技术基本有以下:

Prompt

直接使用基础大模型厂商发布的商用产品服务,通过提示词工程,对大模型进行引导与限制,完成特定场景下的任务。

Fine-tuning

Fine-tuning是迁移学习中的一种常见方式。在基础大模型的基础上进行微调,以适应特定任务。

迁移学习(Transfer Learning)是一种机器学习技术,其中预训练的模型在新任务上进行再训练。目标是利用在原任务(即训练任务)中学习到的知识去帮助解决新任务。预训练通常在大规模数据上进行,可以使模型学习到通用的特征或者模式。

通过使用小批量的高质量特定场景数据来对现有的大模型进行进一步训练,这样可以节省大量计算资源和时间,提高计算效率,甚至可能提高模型预测的准确率。

Embedding

文本向量化,一般用于结合企业私有知识库对模型能力进行扩充。

自然语言处理(NLP)中,语言向量化是一种常用技术。例如,一个常见的方法是将一个单词转换为一个数值向量,这种方法叫做词嵌入(Word Embedding)。在词嵌入中,每个单词将被表示为一个实数向量,向量的大小通常预先决定,且相似意义的单词在向量空间中距离较近。


AIGC与测试

赋能测试

AI对软件研发带来的提效相信大家都看到不少,软件工程 3.0 写的比较详细,大家感兴趣可以进一步学习。

在实践工作中,我也简单梳理了一些常用的赋能软件测试的思路。

AIGC赋能测试

  • 需求分析: 在这个阶段,GPT可以辅助用户理解复杂的需求,给出适当的测试策略建议。

  • 测试用例设计: GPT的应用在这一层面显著提高了工作效率。具体表现在:

    • 正交法: 用于审查人工和识别异常场景。

    • 边界值和等价类: 设计思路中具有核心地位。

    • 接口测试: 协助在参数组合和场景组合中进行代码实现。

  • 脚本编写: 自然语言编写脚本已成现实,只需简单调试。

  • 纠错: 直接复制错误信息,甚至提供直接的代码片段(注意数据安全),即可快速定位到问题。

  • 数据构建: 可以辅助进行小批量数据构建及数据加工,毕竟是大语言模型。

对于集成工具,如下划线:

  • testGPT: 能自动生成单元测试并且可以进行代码检查的工具。

  • cursor和github copilot: 这两个工具使代码和测试过程更加智能化。

在过去的不到一年中,GPT在软件测试领域的一些应用已经让行业从业者感受到了智能变革的力量。

AIGC测试

如何确保AI产出的内容能够满足我们实际业务场景的需要,这是个问题。

AIGC测试通常指的是评估AIGC产出质量和系统性能。例如其生成内容的准确性、一致性、创造性、相关性等方面进行评估。

测试项描述
内容质量生成的内容是否在语法、拼写、逻辑连贯等方面无误。
内容相关性生成的内容是否与既定主题及上下文高度相关。
内容创新性生成的文本、图片或者音频等是否具有创新性和独特性,而不仅仅是拙劣的模仿。
系统稳定性和性能系统在持续生成内容时,能否保持稳定的输出质量及较低的系统耗时。
系统可扩展性针对处理更大或不同类型的业务需求时,是否能够快速适应和扩展。

以下是一些常用的AIGC测试方法:

  1. 人工评估:通过专业审查员依据整体预定义的评分标准,如语言准确性、逻辑连贯性、内容相关性等对生成内容进行评价。这种方式直接且具有针对性,但涉及大量手动操作,费时费力,因而非常适合小规模的测试。专业领域需要行业专家基于行业经验与知识进行深度评估。

  2. 自动化评估:根据诸如BLEU、ROUGE、METEOR等自然语言处理技术对生成内容进行评价,主要通过比较生成内容与参考内容的匹配程度。此方法在评估内容的语言准确性和连贯性上有帮助,但处理复杂的创新性或语义级别的问题时可能受限。知识专业性达不到要求。

  3. A/B测试:向用户展示由不同算法生成的多种内容,以了解哪种内容更能吸引用户。通过分析用户互动、满意度等数据,来评估不同AI模型的性能。所有结果均直接关联到业务指标,但需要进行在线实验,同时用户反馈可能受到多因素影响,可能并不一定代表内容质量。

  4. 结合人工和自动评估:在这类方法中,首先使用自动评估对生成内容进行初步筛选,然后通过人工评估对其进行进一步的优化。两者的结合可以得到最好的结果,但评估一致性的问题也需要考虑。

在实际的项目中,需要根据行业背景及业务目标进行测试目标的设定。合理结合各类测试方法,以便全面地评估AI生成内容的性能,且能够有不错的投入产出比。

行动吧,在路上总比一直观望的要好,未来的你肯定会感 谢现在拼搏的自己!如果想学习提升找不到资料,没人答疑解惑时,请及时加入扣群: 320231853,里面有各种软件测试+开发资料和技术可以一起交流学习哦。

最后感谢每一个认真阅读我文章的人,礼尚往来总是要有的,虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走:

这些资料,对于【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴上万个测试工程师们走过最艰难的路程,希望也能帮助到你!

  • 10
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值