软件工程实践——软件评测作业

文章对比了文心一言和通义千问的软件测评,指出两者在AI画作生成和交互问题上存在的Bug,同时分析了软件开发过程中时间估计、优劣及市场状况,强调测试和用户反馈在软件改进中的重要性。
摘要由CSDN通过智能技术生成
这个作业属于哪个课程2302软件工程
这个作业要求在哪里软件工程实践——软件评测作业
这个作业的目标对给定的软件进行软件测评
其他参考文献《构建之法》

第一部分 调研,评测

1.0 Bug评级量化标准

为了方便下面阐述Bug,以及对Bug进行定量描述,先对Bug严重性进行评级如下。

星级说明
🌟🌟🌟🌟🌟严重的安全问题:可能导致用户关键信息泄漏;严重的功能问题:某模块功能完全不能使用。
🌟🌟🌟🌟潜在的安全问题:可能使得部分用户的信息泄漏;一般的功能问题:某模块或功能在某些场合不能使用;交互问题:不符合逻辑的交互,会导致暂存信息丢失等。
🌟🌟🌟潜在的功能问题:在某些极端情况下会出现的功能问题,以及足够影响功能的排版/交互/显示错误。
🌟🌟显著的排版/交互/显示错误,信息调用报错,以及在某些极端情况下功能不能使用。
🌟细小的排版/交互/显示错误,刷新或等待后恢复,不影响实际信息以及主要功能

1.1 文心一言

1.1.1 使用体验

  • 介绍和使用软件
    文心一言是百度基于文心大模型技术推出的生成式对话产品。文心大模型是百度自主研发的产业级知识增强大模型,既包含基础通用的大模型,也包含面向重点任务领域和行业的大模型,以及丰富的工具与平台,支撑企业与开发者进行高效便捷的应用开发。文心一言能与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。
    软件界面
    目前用户可以通过“百宝箱”来通过对话模板得到想要的对话内容
    百宝箱

  • 软件优缺点

  • 优点:

    • 1.高效的文本生成能力:文心一言能够迅速输出创意独特、吸引人的文本,减少人力资源消耗,提升作业效率。
    • 2.语言风格定制:软件能够根据用户的特定需求,调整其输出的语言风格,以适应不同场合与受众。
    • 3.自然语言理解与应对:凭借先进的自然语言处理技术,文心一言能够准确理解用户指令,并产出符合要求的文本。
    • 4.响应速度快:用户与软件交互时,几乎能做到实时响应,使对话流程更加顺畅。
    • 5.语言处理能力出众:能够处理多种语言风格和行业术语,无论是日常用语还是专业文本,都能应对自如。
    • 6.学习能力持续增长:通过在线学习和离线训练,累计经验,提高答案质量,并扩大知识库。
  • 缺点:

    • 1.对特定领域的写作支持不足:对于医疗、法律等具有专业性和技术性的领域,文心一言的自动生成服务还需要完善。这要求有更多的领域专家参与到模型训练中,以更好地满足用户需求。
    • 2.缺少多种写作风格选择:目前,文心一言的自动生成服务尚未提供多种写作风格选择的功能,如新闻报道、科技论文等,这限制了其应用范围和满足不同用户个性化需求的能力。
    • 3.用户界面设计问题:有时其界面设计不够人性化,可能导致用户在操作上遇到阻碍,同时个性化设置的缺乏也是一个问题。
  • 对产品的改进意见

    • 增强ai画作这方面,像个智障
    • 增强下上下文检索能力,答非所问

1.1.2Bug描述

在这里插入图片描述
在这里插入图片描述

1.1.2.1 环境
  • 操作系统:windows 11 系统
  • 计算机平台:ROG Stix 6513QM G513QM
  • 使用的浏览器:Microsoft Edge版本 123.0.2420.97 (正式版本) (64 位)
1.1.2.2 Bug 的具体描述

产品不能正确的按照用户的要求得到想要的ai画作结果。
严重性评级:🌟🌟🌟🌟 交互问题:不符合逻辑的交互

1.1.2.3 Bug的可复现性及具体复现步骤
  • 可复现性:可复现
  • 具体复现步骤:你让产品画一幅ai画作关于什么主题都行,让他去掉画面中的一点元素就会出现错误。
  • 在这里插入图片描述
    在这里插入图片描述
1.1.2.4 Bug 分析

感觉是产品对于图像的大数据训练有问题,不能根据用户给出的上下文给出正确的回答。

1.1.3 结论

目前大数据分析模型对话型产品对于图像数据模型的分析存在歧义,ai画作创作存在问题。

1.2 通义千问

1.2.1 使用体验

  • 介绍和使用软件
    讯飞星火认知大模型,是科大讯飞研发的以中文为核心的新一代认知智能大模型。

  • 使用体验

  • 使用界面在这里插入图片描述

    • 感觉让他画一幅ai画作速度很慢在这里插入图片描述
  • 软件优缺点

  • 优点:

    • 快速响应:我可以迅速回答问题,提供信息,而不需要休息或放松。
    • 大量数据处理:我可以处理和分析大量的文本数据,发现模式和趋势。
    • 多语言支持:我能理解多种语言,这使得我可以帮助不同语言背景的用户。
    • 持续学习:通过机器学习算法,我可以不断地从新的数据中学习并改进自己的性能。
    • 易于访问:只要有互联网连接,用户就可以随时随地访问我的服务。
  • 缺点:

    • 依赖数据:我的知识和能力完全依赖于训练数据和算法,如果这些数据有偏差或错误,我的回答也可能不准确。
    • 无自主创造力:我的内容生成能力基于模式识别和统计概率,并不涉及真正的创造性思维或原创想法。
    • 缺乏常识理解:尽管我可以回答许多问题,但对于需要深层次常识或文化背景的问题,我的理解可能有限。
    • 隐私和安全风险:用户在与我互动时可能需要提供个人信息,这可能涉及隐私泄露和数据安全的风险。
    • 对产品的改进意见
    • 增强ai画作的训练,画的速度有点慢的让人烦躁,但是准确性比隔壁文某一言好点。

1.2.2 Bug描述

让产品画出一幅关于电影《银河护卫队》的ai形象画作得到的是错误的画作
bug

1.2.2.1 环境
  • 操作系统:windows 11 系统
  • 计算机平台:ROG Stix 6513QM G513QM
  • 使用的浏览器:Microsoft Edge版本 123.0.2420.97 (正式版本) (64 位)
1.2.2.2 Bug 的具体描述

你让产品画某个影视作品的人物团队会出现重复或者错误,或者与相同影视公司下的其他作品搞混。
如果要求的是一个团队,他可能会重复其中一个人物
严重性评级:🌟🌟🌟🌟 交互问题:不符合逻辑的交互
这是重复的情况:
bug1
这是跟要求不符的画作
bug2
电影中的形象是 :
电影实际形象

1.2.2.3 Bug的可复现性及具体复现步骤

具有可复现性
具体步骤:你让产品画某个电影中的团体,他会给出重复的形象或者人物结构错误

正确的:在这里插入图片描述

1.2.2.4 Bug 分析

可能这个数据分析模型没有分析过视频,通过网上的图片数据分析,无法将一个团队中每个人物和对应形象对应起来,导致人物的重复错误。

1.2.3 结论

目前大数据分析模型对话型产品对于图像数据模型的分析存在歧义,ai画作创作存在问题。

采访另一个用户对这两款软件软件的使用体验

采访对象:2023软件工程学生
在这里插入图片描述在这里插入图片描述

第二部分 分析

时间估计

需求分析和产品设计: 2-4周
技术研究和原型开发: 3-6周
核心功能开发: 4-8周
集成和内部测试: 3-5周
用户测试和反馈: 2-4周
问题修复和优化: 2-4周
准备发布和市场推广: 1-3周
总计: 大约需要17-39周,即约4到9个月。这是一个粗略的估计。

软件优劣分析

  • 优势可能包括:
    • 用户体验设计较为先进。
    • 代码质量高,易于维护和扩展。
  • 劣势可能包括:
    • 新功能可能需要用户一段时间的适应。
    • 如果测试不充分,可能存在未知的bug。
    • 在市场上可能面临激烈的竞争。
  • 名列:可能位于市场的上游。

提高的重要方面

从软件工程的角度来看,一个重要的改进方面可能是:

测试和质量保证: 确保有足够的时间和资源来进行彻底的测试,包括单元测试、集成测试、性能测试和用户接受测试。这有助于确保软件的稳定性和可靠性,减少发布后的bug,提高用户满意度。

具体建议:

增加对测试的投资,包括时间和人力,确保覆盖所有关键路径和边界情况。
建立有效的用户反馈机制,以便快速收集和响应用户的问题和建议。
在对于对用户上下文的检索能力需要增强

对于第一部分发现的bug,为何软件团队不能在发布前修复

我认为是因为这类大数据模型对于这类图像训练暂时做不到完善,而且市面上有更多这种专门针对ai训练画像的产品,这种产品中心不在这里 ,这这类问题的测试少了。

第三部分 建议和规划

市场概况

市场规模:智能对话AI市场的规模正在迅速增长,特别是在客户服务、个人助理、教育、健康护理和娱乐等领域。具体的市场规模需要通过市场研究报告或数据分析来估计。
直接用户和潜在用户:直接用户包括企业(如客服中心)、开发者以及需要与AI进行交互的个人用户。潜在用户则是那些尚未使用AI但可能会受益于此类技术的人群,例如老年人、残障人士等。

市场现状

市场上的产品:市场上已有多款智能对话AI产品,如Siri、Google Assistant、Amazon Alexa、Microsoft Cortana等。
产品定位、优势与劣势:每个产品都有其独特的定位,例如Siri在苹果生态系统中的整合度较高,而Google Assistant则强调搜索功能。优势可能包括更好的用户体验、更准确的语音识别等;劣势可能是对特定语言或方言的支持不足。
产品间的关系和竞争态势:这些产品之间存在竞品关系,它们在市场份额、技术创新和用户体验上相互竞争。
市场阶段:这个领域目前处于成长阶段,随着技术的发展和用户需求的增加,市场仍在扩大。

市场与产品生态

  • 核心用户群:核心用户群可能是科技爱好者、忙碌的专业人士、企业客户等。

  • 典型用户:典型用户可能是年轻的专业人士,他们使用智能手机和电脑进行工作和个人生活管理。

  • 学历、年龄、专业、爱好、收入:用户可能具有不同的背景,但通常具有一定的技术熟悉度,年龄范围广泛,专业多样,有一定的可支配收入。

  • 用户群体之间的关系:用户群体之间可能存在社交联系,他们可能会分享关于AI产品的经验和建议。

  • 产品生态:AI产品可以与其他服务和设备集成,形成一个生态系统,例如智能家居设备、移动应用等。
    产品规划

  • 新功能设计:可以考虑增加多语言支持、情感识别、个性化推荐等功能。

  • NABCD分析:新功能应该有助于提高用户体验、增加用户粘性、扩展市场份额并创造新的收入来源。

  • 团队配置:可能需要招聘开发人员、测试人员、UI/UX设计师、产品经理、市场营销专家和客户支持人员。

产品规划

在前几周内完成需求分析、产品设计和原型制作,然后进行开发、测试和迭代,最后几周专注于市场推广和用户反馈收集。

  • 新功能设计及NABCD分析
  • 新功能:基于情感分析和个性化学习的对话优化。
  • NABCD模型
  • N (Needs, 需求): 用户需要更自然、更个性化的交互体验,以及能够理解并回应他们情绪的AI伙伴。
  • A (Approach, 方法): 通过深度学习和自然语言处理技术,使产品能够根据用户的语言使用习惯、话题偏好以及语气变化来调整对话策略。
  • B (Benefit, 益处): 提升用户满意度,增加用户黏性,为用户提供更加人性化的服务体验。
  • C (Competitive Advantage, 竞争优势): 相较于市场上其他AI助手,增加了情感识别和个性化学习功能,能更好地理解和适应用户需求。
  • D (Delivery, 交付): 软件更新将通过应用商店和官方网站推广,同时提供更新的用户指南和在线帮助文档。
  • 团队配置与角色分配
    开发 (3人): 负责新功能的开发工作,包括前端和后端编码、系统集成以及确保软件质量。
    测试 (1人): 负责软件测试,包括单元测试、集成测试和用户接受测试,确保新功能的稳定性和可靠性。
    美工/UI/UX设计师 (1人): 负责界面设计和用户体验改进,确保新功能的界面友好并且易于使用。
    产品经理/项目经理 (1人): 负责整个项目的规划和管理,确保项目按时按质完成。
  • 16周详细规划
    第1-4周: 需求分析与规划,确定新功能的细节,完成产品设计初稿。
    第5-8周: 原型设计与用户测试,根据反馈修改设计,完成开发准备工作。
    第9-12周: 主要开发周期,开发新功能并进行初步的内部测试。
    第13周: 完成开发,开始进行全面测试。
    第14周: 测试与修复发现的问题。
    第15周: 用户验收测试和最终修正。
    第16周: 发布新版本,并提供必要的市场推广和用户支持。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值