软件评测-AI大语言模型

文章详细评测了文心一言和讯飞星火在数学问题处理、绘画能力、文本分析等方面的体验,指出它们在处理数字和绘画方面的缺陷,提出了模型训练、用户反馈处理和产品功能改进的建议。同时,文章分析了AI语言模型市场的前景和现有产品特点,以及软件工程中的问题和改进策略。
摘要由CSDN通过智能技术生成
这个作业属于哪个课程<2302软件工程>
这个作业要求在哪里<软件评测作业>
这个作业的目标调研,评测,分析,建议和规划
其他参考文献

目录:

  1. 调研评测
  2. 分析
  3. 建议和规划

调研评测


首先给出关于评测BUG严重程度的表格:

星级说明
🌟🌟🌟🌟🌟严重的安全问题:可能导致用户关键信息泄漏;严重的功能问题:某模块功能完全不能使用。
🌟🌟🌟🌟潜在的安全问题:可能使得部分用户的信息泄漏;一般的功能问题:某模块或功能在某些场合不能使用;交互问题:不符合逻辑的交互,会导致暂存信息丢失等。
🌟🌟🌟潜在的功能问题:在某些极端情况下会出现的功能问题,以及足够影响功能的排版/交互/显示错误。
🌟🌟显著的排版/交互/显示错误,信息调用报错,以及在某些极端情况下功能不能使用。
🌟细小的排版/交互/显示错误,刷新或等待后恢复,不影响实际信息以及主要功能。

文心一言

文心一言的操作指南中是这样介绍自己的:
文心一言是百度研发的 人工智能大语言模型产品,能够通过上一句话,预测生成下一段话。 任何人都可以通过输入【指令】和文心一言进行对话互动、提出问题或要求,让文心一言高效地帮助人们获取信息、知识和灵感。

体验

一开始,考虑到AI应当比较擅长数学问题,于是我就立刻问了一个较为简单的数学问题,结果却不如人意。

在这里插入图片描述

后来为了测试绘画能力与文本分析能力,发现除自然地标,对人造地标的绘制不如人意。

在这里插入图片描述

优缺点分析

优点:

  • 属于国内的AI,不需要使用魔法进入外网,可以直接访问。
  • 可以进行多语言处理,中日英等多国语言均可识别并给出相应语言的回答
  • 反馈较快,无需长时间等待

缺点:

  • 虽然有绘画功能,但是绘画的缺陷很大,许多地标无法给出正确的绘画样式
  • 数学处理能力不行,存在乱说乱讲乱解释的现象,同时没有足够的自我纠错能力
  • 用户隐私问题,该软件的开发方是百度,使用的隐私政策为百度的隐私政策,百度的隐私政策可以说是,我觉得我是隐私保护政策。
  • 偶尔存在访问量过大无法进行处理的情况

改进意见

  • 也许是模型本身的问题,除了对文本编写要求是能实现,对数字的处理功能好像不如人意,希望可以改进对数字的处理
  • AI绘图可能是训练量不够大,和对于网上的一些资源无法获取或者爬取,所以在绘画方面也难以实现得很完美,需要改进数据获取的渠道。

另一个用户的采访

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

背景

软件工程的同学,需要代码DEBUG协助

BUG描述

BUG1
  • BUG发生时的测试环境

    • 操作系统 Windows11 专业版 23H2
    • 浏览器环境 edge
    • 发生时间 2024/4/15 15:37
    • 发生原因及结果 试图让文心一言给出用 1 2 3 4这四个数字计算出24的方法,结果却给出错误的算式
  • BUG的可复现性及具体复现步骤

    • 问及用 1 2 3 4这四个数字计算出24的方法时,概率出现错误的算式,10次测试中出现5次错误算式
    • 反问算式是否正确 必然给出自己的算式有误 在3次反问内必然出现给出错误算式的情况。
  • BUG的具体描述

    • 偶尔给出错误的算式,在多次反问后必然给出错误的算式,同时自己的计算也是错误的结果。
      在这里插入图片描述
      在这里插入图片描述
  • BUG分析

    • 可能成因:参与编写的人员很可能未曾考虑到自己结果正确而用户反问的情况,只考虑用户反问的情况,从而无论结果正误都直接进入之前的结果有误。
    • 严重性 🌟🌟🌟
    • 预期和改进建议: 现在大多数AI模型都采用神经网络,拥有自我学习迭代的能力,用户的操作也会对其学习产生影响,若是不加以修改,可能会污染数据,导致这方面的答案错误率升高。对于自检功能需要多加验证,不能默认只有错误的情况才有用户反问。
BUG2
  • BUG发生时的测试环境

    • 操作系统 Windows11 专业版 23H2
    • 浏览器环境 edge
    • 发生时间 2024/4/15 15:59
    • 发生原因及结果 试图让文心一言给出福州大学的图片,结果只给了个勉强算大学的图片
  • BUG的可复现性及具体复现步骤

    • 直接要求它画福州大学 画出来的肯定不是福大
  • BUG的具体描述

    • 单纯的不画福大
      在这里插入图片描述
  • BUG分析

    • 可能成因:大概率是无法爬取网络上的图片进行处理,无法获取信息
    • 严重性 🌟🌟🌟🌟
    • 预期和改进建议: 根本就给不出用户要求的东西,在人造建筑或者地标这一方面功能完全缺失。改进数据获取源,进一步训练绘画AI

结论

  • 界面:一般。 不需要时刻提示高版本模型需要VIP,减少VIP氪金出现的数量
  • 绘图:不推荐。 它绘图除了是个绘图之外,并不能满足绘图人的需求
  • 数字处理: 一般。 能给正确答案,但是也会给错误答案,严重的是处理功能不够完善,不能处理好用户反问这一问题。
  • 文本处理: 推荐。 符合一般的文本模型要求,基本的需求都能满足,除了一些比较敏感的问题都能实现。

讯飞星火

讯飞星火在AI方面功能更加丰富,除了常规的绘画文本之外,还有模拟人格(虽然马上就露馅了)。在数字处理方面也和文心一言有所不同(虽然还是智障)。

体验

刚开始,同样进行和文心一言一样的测试,两个在数字处理方面不同,但是也一样存在缺陷。
在这里插入图片描述
在这里插入图片描述

在绘画方面,同样无法处理具体的人造地标。
在这里插入图片描述

优缺点

  • 优点
    • 界面简单干净
    • 建立AI人格,可交互性强
    • 反应迅速,自我纠错快
    • 无需魔法,可直接使用
  • 缺点
    • AI人格不够完善,有漏洞
    • 虽有自我纠错,但是存在总结失误
    • 绘画功能不够完善

改进意见

AI人格训练需要加强,对绘画资源的获取途径也要加强,对一些公共资源应该及时利用,丰富AI数据。

另一个用户的采访

在这里插入图片描述

背景

数媒专业的同学 需要生成图片

BUG描述

BUG1
  • BUG发生时的测试环境

    • 操作系统 Windows11 专业版 23H2
    • 浏览器环境 edge
    • 发生时间 2024/4/15 17:22
    • 发生原因及结果 试图让讯飞星火给出用 1 2 3 4这四个数字计算出24的方法,要求尽可能多的算式出现错误
  • BUG的可复现性及具体复现步骤

    • 问及用 1 2 3 4这四个数字计算出24的方法后,再问给出尽可能多的算式,必然出现BUG
  • BUG的具体描述

    • 问到尽可能多的算式后,计算会不断进行,随着进行,结果会出错或者结论会出错。
  • BUG分析

    • 可能成因:AI模型计算存在问题,在计算不出其他解的时候会不断运算,最后计算超时强制给结论
    • 严重性 🌟🌟🌟
    • 预期和改进建议: 强化AI计算功能,写好逻辑处理,不能得出更多解或者来不及计算的处理好搞好
BUG2
  • BUG发生时的测试环境

    • 操作系统 Windows11 专业版 23H2
    • 浏览器环境 edge
    • 发生时间 2024/4/15 18:17
    • 发生原因及结果 试图让讯飞星火给出福州大学的图片,结果只给了个勉强算大学的图片
  • BUG的可复现性及具体复现步骤

    • 直接要求它画福州大学 画出来的肯定不是福大
  • BUG的具体描述

    • 单纯的不画福大
  • BUG分析

    • 可能成因:大概率是无法爬取网络上的图片进行处理,无法获取信息
    • 严重性 🌟🌟🌟🌟
    • 预期和改进建议: 根本就给不出用户要求的东西,在人造建筑或者地标这一方面功能完全缺失。改进数据获取源,进一步训练绘画AI,怎么两个AI都是这个样子。

结论

  • 界面:推荐。 非常简洁,一幕了然
  • 绘图:不推荐。 对人造地标这一点来说,实现的不够完善,可能是只获取了较知名的建筑而没有后续爬取功能,得加强
  • 数字处理: 一般。 能给正确答案,但是给不出更多正确答案,要更多会出错。
  • 文本处理: 推荐。 符合一般的文本模型要求,基本的需求都能满足,除了一些比较敏感的问题都能实现。

分析

预估时间

完成该产品的话预计需要一年到一年半,其中前面半年时间是在接受人工智能相关的培训(大语言模型等),再加两个月时间训练UI操作,之后才能开始开发,同时需要搭建好服务器,处理后续访问流量等问题。

产品对比

直接上表格

网站名入手难度界面文本处理数字处理绘画额外功能
文心一言你们没有手机吗用薪创造快乐正常水准骗过别人先骗过自己睁眼看世界求求了我没有
讯飞星火你们没有手机吗除了功能你见不到别的正常水准算不过来我糊弄一下可以吗睁眼看世界求求了喜欢我人格一半吗
chatGPT有手机也不好使除了功能你见不到别的我的拿手绝活不会乱算的我没有这个也没有
总结:
入手难度: 讯飞=文心>GPT
专业性方面:GPT>讯飞>文心
界面:GPT=讯飞>文心
绘画:讯飞=文心>GPT (矮个子里拔高个)

软件工程建议

对用户反馈的处理,模型训练光靠自己团队内是不够的,需要依靠广大用户来训练,但是要注意对用户反馈的处理一定要做到足够充分,不可偷懒也不可默认情况,一定要考虑清楚,什么可能性都要处理,缺漏一点就会导致模型的训练出现严重错误,日积月累下可能会导致整个项目失败

BUG分析

开发人员:没有考虑到用户的反馈问题,对于情况的考虑不够周全

测试人员:没有进行充分的测试,没有考虑用户的错误输入或者二义性输入导致的问题。

建议和规划

市场概况

根据IDC数据预测,2021年中国人工智能软件及应用市场规模为51亿美元,预计2026年将会达到211亿美元。数据、算法、算力是AI发展的驱动力,其中数据是AI发展的基石,中国数据规模增速或排名全球第一。据IDC统计,中国数据规模将从2021年的18.51ZB增长至2026年的56.16ZB,年均增长速度CAGR为24.9%,增速位居全球第一。

市场现状

现有产品

文心一言

定位:百度文心一言是百度全新一代知识增强大语言模型,致力于提供高效、便捷的信息获取、知识理解和创作支持。它是一个人工智能基座型的赋能平台,能广泛应用于金融、能源、媒体、政务等千行百业。

优势:文心一言从数万亿数据和数千亿知识中融合学习,具有知识增强、检索增强和对话增强的技术优势。其文本处理能力强大,能够处理大规模数据,并在多模态能力上有所突破。

劣势:由于AI技术的不断发展,文心一言可能还需要持续优化和升级,以适应更广泛和复杂的应用场景。

讯飞星火

定位:科大讯飞在AI大语言模型领域也有显著的布局,其大模型技术被广泛应用于其全线C端产品,如智能录音笔、翻译机、智能办公本等。科大讯飞致力于通过人工智能技术提升用户体验,提高工作效率。

优势:科大讯飞在语音识别、自然语言理解等方面具有深厚的技术积累,其大模型技术在这些领域的应用效果显著。同时,其C端产品线丰富,能够满足不同用户的需求。

劣势:与百度文心一言相比,科大讯飞在知识增强和多模态能力方面可能还有一定的提升空间。

竞品关系

文言一心依托百度在搜索引擎和大数据领域的深厚积累,展现出强大的语言处理能力和知识增强特性。而讯飞星火则凭借科大讯飞在语音识别、自然语言理解等领域的技术积累,在跨领域的知识和语言理解方面表现出色。两者同为AI大语言模型在这一市场上竞争激烈。

态势

文言一心凭借百度在搜索引擎和大数据领域的深厚积累,拥有强大的语言处理能力和知识增强特性。这使得文言一心在文本处理、语义理解和知识推理等方面具备较高的性能,能够满足用户多样化的需求。

科大讯飞在语音识别、自然语言理解等领域有着深厚的技术积累,这使得讯飞星火在语音交互、智能问答等方面具有优势。同时,讯飞星火还注重与科大讯飞其他产品的融合,如智能学习机等,为用户提供更加综合和便捷的解决方案。

市场与产品生态

核心用户群

核心用户群主要是20-30岁的青年人,他们具备以下特征:

  • 学历:大部分用户拥有本科或以上学历,对新知识和技术有较强的接受能力和学习欲望。
  • 年龄:介于20-30岁之间,正处于人生的上升期和事业发展的关键阶段。
  • 专业:涵盖广泛,但科技、设计、艺术、金融等专业背景的用户可能更为集中。
  • 爱好:多样化,可能包括旅行、运动、音乐、电影、阅读等,同时也关注科技趋势和社会热点。
  • 收入:因职业和个人发展情况而异,但普遍有一定的可支配收入,愿意为提升生活品质和效率付费。
需求分析

表面需求:用户需要一个能够帮助他们高效处理日常工作和生活任务的工具,如信息检索、日程管理、文本编辑等。

潜在需求:用户渴望通过AI技术提升个人能力和创造力,如学习新知识、获取灵感、优化工作流程等。同时,他们也希望通过AI技术更好地理解和应对社会变革,以及实现个人成长和发展。

用户关系

用户群体之间存在多种关系,如同学、同事、朋友、家人等。他们会在不同场合分享使用产品的经验和感受,相互推荐和影响。这种社交互动有助于扩大产品的用户基础和影响力。

用户生态

利用用户间的相互作用,我们可以构建特定的用户生态。例如,通过社区功能让用户分享使用心得、交流经验,形成知识共享和学习交流的氛围。同时,可以举办线上线下的活动,如研讨会、交流会等,促进用户之间的深度互动和合作。

子产品关系

产品的子产品和其他相关产品之间可能存在互补关系或协同作用。例如,主产品可能是一个综合性的AI助手,而子产品可以是专注于某个领域的AI工具,如写作助手、翻译工具等。这些产品可以相互补充,为用户提供更完整和全面的解决方案。

产品生态

利用各个产品特性之间的相互关系,我们可以构建产品生态。例如,主产品可以作为入口和中心,整合各个子产品的功能,为用户提供一站式服务。同时,可以开发跨产品的协同功能,如数据共享、功能联动等,提升用户体验和效率。此外,还可以与其他相关产品或服务进行合作,共同打造更完整和便捷的AI生态链。

产品规划

NABCD分析
需求(Need)用户需要一个能够帮助他们更高效地管理和整合信息的大语言模型产品。在当前软件基础上,用户反馈显示,他们需要一个能够智能分类、整合并提炼信息的功能,以便于快速获取关键知识点和进行决策。
方法(Approach)我们计划开发一个名为“智能信息管家”的新功能。该功能将利用AI大语言模型技术,对用户输入或导入的各类信息进行自动分类、摘要生成以及关键点提炼。此外,该功能还将提供个性化设置,允许用户根据自己的需求定制信息筛选和整理方式。
优势(Advantage)相较于其他功能,如简单的搜索或文件管理工具,智能信息管家能够更深入地理解和处理文本信息,提供更加精准和有价值的内容。它可以帮助用户节省大量时间,同时提高信息处理的效率和准确性。
收益(Benefit)用户通过使用智能信息管家功能,将能够更快速地获取所需信息,提高工作和学习效率。对于企业用户来说,这意味着更高的生产力和更低的运营成本。对于个人用户来说,则意味着更轻松的学习体验和更高效的决策过程。
挑战(Challenge)开发智能信息管家功能可能会面临技术实现上的挑战,如如何确保信息的准确分类和摘要生成的质量。此外,如何收集和处理大量用户数据也是一个需要考虑的问题。
部署(Deployment)该功能将作为软件的改进版本进行发布,通过软件更新或应用商店进行推广。我们将通过宣传视频、博客文章和社交媒体等多种渠道向用户介绍新功能,并提供用户手册和在线支持以帮助用户更好地使用它。
团队角色配置与16周规划
  • 角色配置:

    • 开发人员(2名):负责功能开发、代码编写和调试。
    • 测试人员(1名):负责功能测试、性能测试和bug修复。
    • 美工/UI设计师(1名):负责界面设计、图标制作和用户体验优化。
    • 产品经理(1名):负责功能定义、需求收集和用户反馈。
    • 项目经理(1名):负责整体项目进度管理、资源协调和沟通。
  • 16周规划:

    • 第1-2周:

      项目启动:团队组建、角色分配、项目目标明确。

      需求收集与分析:产品经理收集用户反馈,定义功能细节。
    • 第3-4周:

      设计与原型制作:美工/UI设计师开始设计界面,制作初步原型。

      技术准备:开发人员研究技术实现方案,准备开发环境。
    • 第5-8周:

      功能开发:开发人员开始编写代码,实现功能逻辑。

      持续沟通:项目经理定期召开团队会议,确保进度同步。
    • 第9周:

      中期评审:检查功能开发进度,评估是否需要调整计划。
    • 第10-12周:

      功能完善与优化:开发人员根据测试反馈进行功能调整和性能优化。

      UI/UX细化:美工/UI设计师根据用户反馈优化界面设计。
    • 第13-14周:

      全面测试:测试人员进行功能测试、性能测试和兼容性测试。

      问题修复:开发人员修复测试中发现的bug。
    • 第15周:

      用户手册与宣传材料准备:产品经理准备用户手册和宣传资料。

      最终测试与调整:进行最后的测试,确保功能稳定可靠。
    • 第16周:

      产品发布:发布软件改进版本,通过多渠道进行推广。

      用户反馈收集:开始收集用户反馈,为后续迭代做准备。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值