大语言模型评测

这个作业属于哪个课程软件工程实践-2023 学年-W 班
这个作业要求在哪里软件工程实践–软件测评作业
这个作业的目标学会对产品进行调研评测与分析,并给出建议和规划
其他参考文献《构建之法》软件工程案例分析作业

第一部分:调研、评测

文心一言

1.体验
(1)基本功能介绍和使用

文心一言是百度研发的 人工智能大语言模型产品,能够通过上一句话,预测生成下一段话。 任何人都可以通过输入指令和文心一言进行对话互动、提出问题或要求,让文心一言高效地帮助人们获取信息、知识和灵感。

📌基本功能 1:对话问答功能
文心一言的对话问答功能能够通过上一句话,预测生成下一段话。用户只需输入指令,文心一言便会自动生成相应的回复。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

✨ 该模块还提供不同插件以实现多种选择性的功能(上限为 3 个,以“说图解画”与“览卷文档”为例)✨
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

选择说图解画插件演示:能够较好的描述出照片中的主要元素,并将照片内容转换成文字,帮助用户更好地理解图片内容。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

选择览卷文档插件演示:对文档的总结条理清晰,简洁明了,便于使用者更快更好的理解文章,提高科研效率。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

📌基本功能 2:一言百宝箱功能
将预设的指令集交给用户,使得用户能够使用或模仿,提高用户的沟通技巧,获得更好的问答体验。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(2)优缺点分析及改进建议

优点:

  • 功能丰富,有诸如对话问答、以文生图、览卷文档等多种插件,能够满足用户的不同需求。
  • 内嵌百度搜索引擎,可以帮助用户快速查找相关信息。
  • 文心大模型 3.5 免费使用,并且已经可以满足用户大部分使用的场景。

缺点:

  • 以文生图功能还不够完善(大语言模型的通病),模型常常无法理解描述的文字,导致生成的图片总是千奇百怪。
  • 不支持多张照片同时上传。
  • 文心大模型 4.0 需要付费使用,并且每 3 小时只能提问 100 次。
  • 一言百宝箱功能页面渲染速度较慢,总是需要等待。

改进建议:

  • 简化 UI,使其更加美观、简洁。
  • 优化以文生图功能,使其能够更好地理解描述的文字,生成更加准确的图片。
  • 优化一言百宝箱功能的页面渲染速度,提升用户的使用体验。
  • 尽早将 4.0 模型免费开放,让更多用户享受到文心大模型的便利。
(3)采访用户

背景:福州大学机械学院学生
选择原因:之前有使用过 chatgpt3.5,和大部分用户经历相似
需求:完成课程作业

栏目:以文生图
问题:文心一言无法理解描述的文字,导致生成出的图片千奇百怪。
改进的地方:优化语言模型,提高生成图片的准确度。

2.BUG

出现环境:
win11+MozillaOnline 124.0.2(64 位)
可复现性:
必然发生
Bug 描述:
当在重新生成回答时,点击停止回答并跳转到另一条记录,然后再次切回到该记录时,回答框内会有部分残留,并且可以再次点击重新生成按钮,重复此操作可以超过"重新生成 5 次"的限制。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
Bug 成因:
异步服务请求被中断,可能生成的部分数据被缓存,所以回答框内会有部分残留回答。点击重新生成按钮到点击停止生成按钮期间,需要回答缓存到一定数量/或是生成时间达到一定阈值,才会被算作一次记录。
Bug 严重性:
★★★☆☆(因为正常使用不会频繁切换对话记录,也不会还没等一个对话回答结束时开启另一个新对话,遇到该 bug 的概率较低)
Bug 建议:

  • 删除缓存机制,当切回对话时,重新生成回答。
  • 当回答生成完整时才算作一次记录。
3.结论

针对日常办公使用,分析文档来说没啥大问题,内置百度的搜索引擎更是在面对一些查找相关信息的场景上显得得心应手,但与现在市面上的大语言模型产品相比,缺少亮点,并且整体的 UI 界面不如 GPT 简洁美观。

讯飞星火

1.体验
(1)基本功能介绍和使用

讯飞星火认知大模型是科大讯飞发布的大模型。该模型具有 7 大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互,该模型对标ChatGPT

📌基本功能 1:对话问答功能
文心一言相比回答略显简单,只有代码部分,缺少对代码的解释,但右上角多了一个运行按钮能够连接本地的 ide 直接运行代码,便于用户使用。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
✨✨ 上图为讯飞星火,下图为文心一言 ✨✨
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
相比与新建一个对话,讯飞星火提供了全新对话的按钮,消除先前对话记录的影响,方便对不同领域的问题在同一个对话里进行问询。但这同时也会使得一个对话的连续性受到影响(个人认为弊大于利)。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
📌基本功能 2:助手中心功能
与文心一言的百宝箱功能类似,不过相比于文心一言,讯飞星火的助手中心功能更加丰富,包括知识问答、日常生活、影视娱乐、音乐、新闻、天气、股票、新闻、影评等多个领域的问答。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
📌基本功能 3:发现友伴功能
能够选择想要对话的对象,在该对象的预设故事背景/人设下,与之进行一对一的交流。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(2)优缺点分析及改进建议

优点:

  • 功能丰富,针对不同分类有不同的助手插件可供使用,优化用体验。
  • 问答界面,可以连接 ide 直接运行代码。
  • 界面简洁,美观大方。

缺点:

  • 友伴功能的体验较差,友伴机器人常常被绕着绕着就给出一些莫名奇妙的回答。
  • 问答功能的回答较少,可能需要自己去搜索相关信息。

改进建议:

  • 优化友伴的语言模型逻辑,提升对话质量。
  • 优化问答的回答质量,增加更多的知识问答内容。
2.BUG

出现环境:
win11+MozillaOnline 124.0.2(64 位)
可复现性:
必然发生
Bug 描述:
在助手中心的分类功能的搜索栏中,搜索关键词"天气"“日期”,会弹出与关键词不相关的功能,影响搜索功能的准确性。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
Bug 成因:
每个功能对应关键词的不明确,或者是该语言模型分析结果有误,导致输出结果不准确。
Bug 严重性:
★★★★☆(因为有过多与搜索内容无关的功能出现,导致用户还需要自己检索,大大降低了用户体验)
Bug 建议:

  • 优化助手中心的分类功能,使其更加准确,满足用户需求。
3.结论

相较于文心一言,讯飞星火的问答功能更加丰富,但也存在一些问题,比如友伴功能的体验较差,问答功能的回答较为简略,并且助手中心的分类搜索功能不准确。但在功能上,讯飞星火的确比文心一言更加强大,并且界面更加简洁美观


第二:分析

(一)开发时间估计

模型名称功能列举预计时间
文心一言对话问答模块、插件模块360 天
讯飞星火对话问答模块、插件模块、助手中心500 天
通义千问对话问答模块300 天

(二)同类产品对比排名

功能\优劣★★★(好)★★(一般)★(差)
界面美观通义千问、讯飞星火文心一言
页面交互通义千问讯飞星火、文心一言
功能数量讯飞星火文心一言、通义千问
实用性通义千问、讯飞星火、文心一言
使用难度通义千问讯飞星火、文心一言

综上: 通义千问(13★)>讯飞星火(12★)>文心一言(9★)

(三)软件工程方面的建议

模型名称建议
文心一言
  1. 优化UI界面,使其更加美观、简洁。
  2. 优化以文生图功能,使其能够更好地理解描述的文字,生成更加准确的图片。
  3. 优化页面渲染速度,提升用户的使用体验。
  4. 解决对话切换对话框内残留回答以及显示生成次数bug
讯飞星火
  1. 优化助手中心的分类功能,使其更加准确,满足用户需求。
  2. 优化问答的回答质量,提供与之相关的更多信息,方便用户理解
  3. 优化友伴功能的语言模型逻辑,提升对话质量。
通义千问
  1. 对于交互体验方面,继续优化界面设计,提升用户查询的便捷性
  2. 对于一些专业领域或热点问题,可以增强模型的专业知识库更新频率,确保提供的信息与时俱进。
  3. 增加更多的个性化和定制化服务,满足不同用户群体的需求。

第三:建议和规划

市场概况

  • 市场规模:

    随着人工智能技术的不断进步和应用场景的日益丰富,AI 大模型在中国得到了广泛的关注和应用。据数据,2023 年,我国 AI 大模型行业市场规模为 147 亿元,预计 2024 年将增长至 216 亿元。随着技术的不断进步和应用场景的拓展,相信 AI 大模型将在未来发挥更加重要的作用,推动中国人工智能产业的持续发展和创新。

  • 用户群体:

    直接用户:企业用户(企业营销规划等)、个人开发者(学生,极客等)、研究机构(科研分析数据等)
    潜在用户:需要使用大语言模型辅助工作的用户(比如画家,作曲家可以使用 AI 获得灵感后,二次创作)

市场现状

  • 目前市场上的产品有:

    • 文心一言(百度)
    • 讯飞星火(科大讯飞)
    • 通义千问(阿里云)
    • ChatGPT(OPEN-AI)
    • Sora(OPEN-AI)
    • Suno(SUNO-AI)
  • 上述产品的定位、优势与劣势在哪?

定位优势劣势
ChatGPTChatGPT是OpenAI推出的基于GPT模型的聊天机器人,旨在通过自然语言处理技术提供对话交互和信息查询的能力。
  1. 强大的对话理解和生成能力,可以流畅地进行多轮交互,并且能够生成连贯、有逻辑的长篇文本。
  2. 高质量的代码编写和问题解答能力,尤其在技术、编程等领域表现出色。
  3. 拥有庞大训练数据集的支持,涵盖多个领域的知识,具备较广的知识面。
  1. 可能存在数据偏见:由于是基于大量数据进行学习的,ChatGPT的回答可能受到数据偏见的影响。
  2. 需要大量数据:为了获得较高的回答准确率和表达能力,需要消耗大量时间和资源来训练数据。
  3. 不够人性化:虽然可以模拟对话,但缺乏真正的情感和人性化,无法像人类一样进行复杂的思考和情感表达。
文心一言 文心一言是百度研发的人工智能大语言模型产品,能够通过上一句话,预测生成下一段话。高效地帮助人们获取信息、知识和灵感。
  1. 百度研发,聚焦于中文语言环境,对中国用户的搜索习惯和需求有较好的适应性。
  2. 结合百度搜索引擎的大数据资源,理论上能在一定程度上满足用户在搜索、信息查找方面的即时需求。
  1. 新推出的模型可能存在成熟度不足、稳定性待提升等问题,需要通过持续迭代优化用户体验。
  2. 同样面临准确性和时效性挑战,以及对复杂逻辑推理和深度专业知识的理解程度问题。
讯飞星火 讯飞星火认知大模型是科大讯飞发布的以中文为核心的大模型,主要用于语音和语言处理
  1. 依托科大讯飞在语音识别与合成领域的优势,有可能结合了语音和文字交互的特色。
  2. 在垂直领域如教育、翻译等方面有独特的优势,尤其是结合了科大讯飞在AI+教育的实践经验。
  3. 具有较强的多模态处理能力,支持语音、文本等多种输入方式。
  1. 相对于其他大型预训练模型,讯飞星火的公开信息相对较少,具体性能表现和市场接受度有待观察。
  2. 是否能在开放域对话和一般知识问答上达到国际领先水平还需实际评测验证
通义千问 通义千文是由阿里云开发的一种能够广泛应用于各类自然语言处理任务的智能工具
  1. 出自阿里云,基于大量的互联网文本训练,具有丰富的中文语境理解能力和跨语言处理能力。
  2. 能够在多种场景下提供帮助,包括但不限于教育、娱乐、商业咨询和客户服务。
  3. 符合法律法规要求,针对中国市场的特性进行了优化,对中国本地化的信息和服务支持较好。
  1. 相对于国际竞品,由于推出时间、市场推广等因素,在全球范围内的知名度和用户量可能存在差距。
  2. 实时更新全球最新知识的能力依赖于数据更新策略和技术实现。
  • 竞品关系: 这些产品之间竞争关系,但在某些领域也存在合作关系。
  • 这个领域目前正处于风口阶段,以下是几个原因:
  1. 技术的革新: 目前 AI 技术的发展已经取得了长足的进步,包括深度学习、强化学习、强大的计算能力、海量数据等。
  2. 市场的需求: 随着人工智能技术的发展,越来越多的人开始关注这个领域,包括企业、个人、研究机构等。
  3. 技术的进步: 目前 AI 技术的发展已经取得了长足的进步,包括深度学习、强化学习、强大的计算能力、海量数据等。

市场与产品生态

  • 这个产品的核心用户群是什么样的人?

    核心用户群体:个人开发者,研究机构。
    学历:多数是计算机相关领域本科以上高学历。
    年龄:中青年为主。
    专业:与计算机研究相关,如软件开发测试,数据挖掘,机器学习等领域。
    表面需求:希望通过 AI 技术来提升工作效率,提升工作质量。
    潜在需求:通过 AI 技术来提升个人能力,提升个人综合素质。

  • 产品的用户群体之间是否存在一定的关系?是否有利用其相互作用二次构成特定用户生态的可能性?

    肯定会存在内在的关联性,同一家公司或合作联盟的不同 AI 大模型产品,可以相互配合,例如在一个产品中获得的用户洞察可以用于改进另一个产品的功能或服务,从而构建起互补的用户生态环境。

产品规划

  • 新功能设计:个性化插件

    Need:
    通过个性化插件,可以增强用户粘性,提供更多定制化服务,满足多元化应用场景下的用户需求。
    Approach:
    个性化推荐算法:根据用户的历史交互记录、标签属性、主动设置的兴趣点等信息,调整模型输出策略,优先展示用户可能感兴趣或对其有价值的信息。
    用户画像构建:收集并分析用户的基本信息、行为数据,构建详尽的用户画像,以便更精确地进行个性化内容生成。
    Benefit:
    通过个性化推荐,可以刺激用户更多地使用和探索通义千问的各项功能,提高用户活跃度和留存率。
    Competitors
    明确自家产品的个性化插件如何在准确性、隐私保护、响应速度、覆盖领域等方面超越竞品,打造独特的竞争优势。
    Delivery
    设计简洁易用的个性化设置界面,让用户方便快捷地管理和调整个性化选项;同时,通过灰度测试、用户反馈等方式不断迭代优化插件功能。

  • 团队配置

职位人数
项目经理1 人
开发工程师3 人
测试/运维工程师2 人
美工设计师1 人
  • 项目时间规划
时间工作内容
1—2 周需求分析、项目规划、原型设计
3-7 周开发设计阶段、实现基本功能
7-10 周优化性能、开展集成测试
10-14 周进行系统测试、性能测试和用户验收测试,修复相关 bug,准备发布
14-16 周编写使用文档、发布正式版本
  • 14
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值