软件工程实践——软件评测作业

1 调研测评

1.1 文心一言

1.1.1 使用体验

(1) 使用体验

文心一言是百度全新一代知识增强大语言模型,它是文心大模型家族的新成员,具备与人对话互动、回答问题、协助创作的能力。它能够从数万亿数据和数千亿知识中融合学习,得到预训练大模型,并在此基础上采用有监督精调、人类反馈强化学习、提示等技术,从而具备知识增强、检索增强和对话增强的技术优势。

  • 对于文字的识别非常严谨。我在输入的时候打错名字了,他对于我的输入仍做出一个较为合理的回答,同时也猜测到了我实际的意思。

  • 角色扮演功能。使用了百宝箱的提供的预制语句,对【】中的内容进行修改,可以更好地进行对话。

(2)优缺点分析
  • 优点

    • 文心一言具有出色的中文处理能力,能够理解并回答各种问题,包括事实查询、知识推理、文本创作等。
    • 文心一言不断迭代和优化,应用场景日益丰富。
    • 润色功能,让问题更容易让AI理解。
  • 缺点

    • 百宝箱的功能现在看来只是在穷举需求,针对特定场景,格式化输入,面对复杂的场景,将出现百宝箱无法应对的情况。
(3) 改进意见

目前百宝箱的存在美其名曰适应各种场景,实际上是AI技术不成熟的表现。应该要增强模型复杂问题的处理能力吗,进一步优化算法,提高模型对复杂、抽象问题的理解能力。引入更多领域知识,特别是针对特定行业或专业的术语和知识,以提高模型的专业性和准确性,逐步替代百宝箱。

(4) 其他用户体验

在这里插入图片描述

1.1.2 Bug描述

(1) 测试环境

​ 操作系统:WIN10

​ 浏览器:EDGE

(2)Bug的可复现性及具体复现步骤

具体描述:使用百宝箱预制的语句没有达到希望的结果。如下图所示,百宝箱显示的是画【愚人节小丑】,但是结果是一段文字。

复现步骤 :选择百宝箱 画【愚人节小丑】

可复现性:目前在我电脑上,总是生成文字,而非图片,与预设效果不同。

(3) Bug分析

成因:百宝箱提供的预制的语句——“愚人节可爱3D小丑,充满创意的皮克斯风格,哈哈哈的愉快”,并没有包含绘画的意思,因此AI没有绘画。

值得一提的是,其他百宝箱中的绘画相关的语句,都有包含一些绘画相关的语句,因此能生成图片,如下图:画【彩虹】中的语句中有壁纸两个字。

严重性:

  • 系统功能:暴露了百宝箱功能的缺陷。
  • 用户体验:使用百宝箱是为了得到更好的结果,这样一个BUG无疑会让用户对百宝箱的可靠性和其AI的能力产生质疑。

改进意见:注重测试和百宝箱预设语句的可复现性。

1.1.3 结论

一般

1.2 SparkDesk

1.2.1 使用体验

(1) 使用体验

SparkDesk即讯飞星火认知大模型,是以中文为核心的新一代认知智能大模型

  • 看来讯飞星光并不是什么“富有情感和哲理的句子”,所以他直接把讯飞星光当成是自己介绍起来了。

  • 和文心一言百宝箱不同提供预制的语句,科大讯飞的助手中心创建一场专门针对特定场景的对话。

    下图是SparkDesk的文言文翻译助手。

  • 与各种各样的人模拟对话。通过与鲁迅的对话,可以看出部分友伴是有经过精心训练的。

(2)优缺点分析
  • 优点:
    • 助手中心:能够针对性创建对话,相比于直接与AI对话,有主题的对话能够让AI更好地理解用户需求。
    • 发现友伴:和各种各样的角色对话,趣味性十足。
  • 缺点
    • 虽然讯飞星火在多个领域都有所涉及,但在某些特定领域或复杂场景下,其性能可能仍需进一步提高,以满足更专业的需求。
(3) 改进意见

扩展应用场景:助手中心对于问题的针对性独具特色,进一步探索和开发新的应用场景,特别是那些尚未充分利用人工智能潜力的领域,在其他领域打出竞争力。

(4) 其他用户体验

在这里插入图片描述

1.2.2 Bug描述

无。

1.2.3 结论

好,不错

2 分析

  • 问题1:使用此软件的所有功能,估计这个软件/网站/服务做到这个程度大约需要多少时间(团队人数6人左右,计算机大学毕业生,并有专业UI支持)?

    半年左右,使用OpenAI开源代码训练AI,具体工作放在收集训练数据和搭建服务器上。

  • 问题2:分析这个软件目前的优劣(和类似软件相比),这个产品的质量在同类产品中估计名列第几?

    SparkDesk实际体验不比Chatgpt3.5差,对于一些专业性的问题也能很好地处理。

    与Chatgpt3.5相比,其优势在于对于中文的处理能力。

    以及友伴功能助手中心提供的各种实用/有趣的功能。

  • 问题3:各方面的问题,推理出这个软件团队在软件工程方面可以提高的一个重要方面(具体建议)。

    数据管理和处理:确保有高效的数据管道来处理和准备训练数据。这可能包括数据的清洗、标注、验证和存储。

  • 问题4:你在第一部分发现的bug,为何软件团队不能在发布前修复?

    软件团队没有进行充分的测试,对于其早百宝箱中预设好的语句,没有充分考虑和测试其可复现性。

3 建议和规划

3.1 市场概况

3.1.1 市场规模

语言模型市场近年来发展迅速,尤其是在大语言模型领域,其市场规模呈现出显著增长的趋势。根据工业和信息化部赛迪研究院公布的数据,我国语言大模型市场规模在2023年预计将达到132.3亿元,增长率高达110%。这表明语言模型市场正处于一个飞速发展的阶段,吸引了大量投资和关注。

3.1.2 直接用户

直接用户数量方面,虽然具体的统计数据可能因不同平台、不同应用场景而有所差异,但可以看出,随着语言模型在自然语言处理、机器翻译、智能客服等多个领域的广泛应用,直接用户数量正在稳步增长。特别是像百度文心一言这样的知识增强大语言模型,其用户规模已经突破1亿,显示出语言模型市场的巨大潜力和广阔前景。

3.1.3 潜在用户

在用户数量,由于语言模型具有广泛的应用场景和巨大的市场需求,因此潜在用户数量非常庞大。随着技术的不断进步和应用的深入,越来越多的企业和个人将意识到语言模型的价值,并将其应用于实际场景中。此外,随着人工智能技术的普及和成本的降低,语言模型将更加易于使用和部署,进一步吸引潜在用户的加入。

3.2 市场现状

  • GPT-3: 由OpenAI开发的一款强大的语言预测模型,能够进行文本生成、翻译、问答等多项任务。优势在于其出色的语言理解和生成能力,但劣势包括高昂的使用成本和潜在的滥用风险。

  • BERT: 由Google开发的预训练语言模型,主要用于提升搜索引擎的效果。它的优势在于对搜索意图的精准理解,但劣势是对计算资源的高需求。

  • XLNet: 由Google开发的另一种预训练语言模型,旨在克服BERT的一些限制。它的优势在于更好的上下文理解和生成能力,但同样需要大量的计算资源。

  • T5: 由Google开发的通用语言模型,能够将不同的NLP任务统一到一个框架下。它的优势在于其通用性和高效性,但劣势是在某些特定任务上可能不如专门优化的模型。

这个领域目前正处于快速成长阶段,随着技术的不断进步和应用的不断拓展,预计未来将有更多的创新和突破出现。同时,随着市场的成熟,也可能会出现一些下降的趋势,但这将是技术进步和市场调整的正常现象。

3.3 产品规划

3.3.1 NABCD模型

情感化对话模拟

  • N. 需求(Need)

随着人工智能技术的普及和人们对交互体验的不断追求,用户对于对话系统的需求不再仅仅满足于简单的问答。他们更希望对话系统能够理解和模拟人类复杂的情感状态,使对话更加自然、真实。情感化对话模拟功能正是为了满足这一需求而生,它能够帮助用户在与系统的交互中体验到更加人性化的对话服务。

  • A. 方法(Approach)

为了实现情感化对话模拟功能,我们将采用先进的情感计算技术和自然语言处理算法。首先,通过收集和分析大量带有情感标注的对话数据,训练出能够识别和理解情感状态的模型。其次,利用深度学习技术,让模型能够模拟出不同情感状态下的语言表达和回应方式。最后,结合文心一言现有的语言模型能力,实现情感化对话的流畅和连贯。

  • B. 利益(Benefit)

情感化对话模拟功能为用户带来了多方面的利益。首先,它提升了对话系统的交互体验,使用户在与系统的对话中感受到更加真实、自然的情感交流。其次,通过模拟不同情感状态下的对话,该功能有助于用户更好地理解他人的情感需求,提高人际沟通能力。此外,该功能还可以应用于心理咨询、情感疏导等领域,为用户提供专业的情感支持。

  • C. 竞争(Competition)

目前市场上虽然存在一些对话系统产品,但它们在情感化对话模拟方面往往表现不足。要么是对情感的理解不够深入,要么是模拟出的对话缺乏真实感。相比之下,我们的情感化对话模拟功能通过先进的情感计算技术和自然语言处理算法,能够更好地理解和模拟人类情感,从而在竞争中脱颖而出。

  • D. 推广(Delivery)

为了有效推广情感化对话模拟功能,我们将采取多种策略。首先,通过线上平台、社交媒体等渠道进行广泛宣传,强调该功能在提升对话体验方面的优势。其次,与相关行业合作,将情感化对话模拟功能集成到他们的产品或服务中,扩大应用范围。此外,我们还将举办线上线下的体验活动,让用户亲自感受情感化对话模拟功能的魅力。

3.3.2 人员分配

4个开发,1个测试,1个美工。

3.3.3 详细规划

角色姓名主要职责
开发人员A负责后端语言模型的构建与训练
开发人员B负责前端交互界面的开发
开发人员C协助A进行模型优化与调试
开发人员D负责数据库设计与维护
测试人员E负责项目各阶段的测试工作
美工F负责项目界面的设计与美化
周次任务描述负责人预计完成时间关键里程碑
第1周需求分析、项目规划全员第1周末完成项目需求文档和详细规划
第2周设计语言模型架构A第2周末完成语言模型架构图
第3-4周搭建开发环境、编写代码A、B、C、D第4周末完成基础框架搭建
第5-6周语言模型训练与优化A、C第6周末完成初步模型训练
第7周前端界面设计F第7周末完成界面设计初稿
第8周前端界面开发B第8周末完成前端界面开发
第9周模型与前端界面集成A、B第9周末完成模型与前端界面集成
第10周功能测试与性能优化E、A、C第10周末完成第一轮测试与优化
第11-12周用户测试与反馈收集E第12周末完成用户测试,收集反馈
第13周根据反馈进行迭代优化A、B、C、D、E第13周末完成迭代优化
第14周文档编写与培训资料准备全员第14周末完成用户手册与培训资料
第15周部署与上线准备A、B、D第15周末完成部署环境搭建
第16周上线与后期维护全员第16周末项目正式上线,开始后期维护工作
  • 8
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值