软件工程实践——软件评测作业

222100425郑钦铭

于 2024-04-15 23:36:38 发布

阅读量1.5k

点赞数 28

文章标签：软件工程

本文链接：https://blog.csdn.net/m0_70770115/article/details/137753967

版权

本文详细评测了两款大语言模型软件——文心一言和Kimi，分析了它们的功能、用户体验、BUG问题以及开发时间估计。作者认为尽管存在一些小缺陷，但Kimi的联网特性使其更具吸引力。文章还讨论了市场现状、产品生态和未来的产品规划。

摘要由CSDN通过智能技术生成

这个作业属于哪个课程	班级链接
这个作业要求在哪里	作业要求的链接
这个作业的目标	对大语言类型的软件测评分析并提出改进方案
其他参考文献	《构建之法》

一、调研，评测

1.1软件产品——文心一言3.5

链接: link

1.1.1体验

文心一言3.5的界面如下图所示，左边为工具栏、账号信息和会话记录等，右边整个大界面是会话窗口。
在这里插入图片描述
**主要功能：**通过对话的方式，可以较好的解决日常学习生活工作的文书工作，解答通识性问题、文字生图等。
优点：
1.有点左侧导航工具栏，右侧对话界面的设计符合大部分大模型语言软件的设计，符合直觉。
2.配色简约干净，UI简介并且广告少。
3.相较于其他国内的大语言模型能够很好的处理大部分的文档工作。
4.可以添加插件扩展功能，可拓展性强。
缺点：
1.不能实时联网，灵活性较差。

采访用户：
用户背景：软工大一学生，有用大模型写代码的需求。
使用部分：仅使用普通的对话写代码功能。
遇到的困难：因为之前就有使用过类似的软件，使用起来没有困难。
用户觉得需要改进的部分：生成速度太慢
采访过程截图：
在这里插入图片描述

1.1.2BUG

字数不能精准匹配，例如我请他写1500字的感悟，它只生成了1100字出头的文字，它将1500字理解成了1500字左右，这种理解方式这在我们日常生活中是不常见的，因此我将其定性为理解逻辑的bug。
Bug发生时的测试环境：Win11+Chorm浏览器+校园网
Bug发生的原因：对“XXX字”的理解错误。

Bug的可复现性及具体复现步骤：

可复现性为必然发生，bug触发条件：请帮我写XXX字的XXX。
bug截图：在这里插入图片描述
经过我的10次测试，都发生了上述bug，因此bug真实存在。

Bug的分析：

成因：对“XXX字”的理解有问题，可能的原因是1.训练模型是无法清晰的告诉大模型“XXX字”的具体含义是一个准确的数字而不是一个范围；2.或者大模型知道“XXX字”的具体含义，只是在生成文章时无法对文章的字数进行正确的判断（不过我认为这个情况的可能性较小，因为在编程中只需设置一个变量便可以解决这个问题）。
严重性：对系统功能的正确性其实影响不大，字数不够可以后续再让其扩充；安全性更不用说，没有什么安全性的隐患；对用户的体验来说，较小程度的影响用户的体验，需要用于再进一步的扩充生成的文章，才能得到想要的答案。(不严重的一星bug，轻微影响用户体验，其他维度可忽略不计)。
改进建议：在下次改进训练是加强大模型对准确数和范围的区别，或者更新大模型的字数的统计能力。

1.1.3结论

我给这个软件的评价是d）好，不错。理由如下：该大模型能很好的解决大部分书面文书工作，但是存在一定的准确度bug，并且有一个很大的缺点就是生成的速度不够理想，每次问答都需要等上不少的时间（和Chatgpt3.5相比）。

1.2软件产品——Kimi

链接: link

1.2.1体验

Kimi的界面如下，上面为导航栏：会话窗口导航+会话名称+账号登陆，下面整个部分就是经典的对话窗口。
在这里插入图片描述

**主要功能：**可以进行简单的文字问答，，并且可以发送给他文档进行文档的分析处理，而且和文心一言3.5最大的不同是Kimi大模型是联网的。
优点：
1.联网的大模型，这是我最喜欢它的一点，联网后可以让它帮忙查看总结网页的内容，也可以问它实时信息。灵活性很高。
2.界面非常简洁，UI统一，给人一种纯粹的高级感。
3.支持快捷语快速输入。
缺点：
1.生成速度一般。
2.语言理解能力不够强。
采访用户：
用户背景：软工大一学生，有用大模型写代码的需求。
使用部分：仅使用普通的对话写代码功能。
遇到的困难：因为之前就有使用过类似的软件，使用起来没有困难。
用户觉得需要改进的部分：生成速度太慢
采访过程截图：
在这里插入图片描述

1.2.2BUG

在考查Kimi对成语的理解时出现bug，输入“包含X字并且X字在第N个字的成语”后有概率输出大量无关的成语。
Bug发生时的测试环境：Win11+Chorm浏览器+校园网
Bug发生的原因：输入“包含X字并且X字在第N个字的成语”

Bug的可复现性及具体复现步骤：

可复现性为偶然发生，bug触发条件：输入“包含X字并且X字在第N个字的成语”
并且当N等于3或者4时，bug发生的概率比较大。
bug截图：
在这里插入图片描述

10次测试有6次发生bug。

Bug的分析：

成因：对“包含X字并且X字在第N个字的成语”的理解有问题，可能的原因是1.训练模型是无法清晰的描述该问题。
严重性：对系统功能的正确性影响巨大，出现bug时出现的内容与用户想要的内容不一致；安全性不知，因为我无法确定该bug的产生原因；对用户的体验来说，很大程度的影响用户的体验，没办法得到想要的答案。(较严重的三星bug，中度影响用户体验，其安全性维度指标未知)。
改进建议：重新训练大模型对该类型问题的解答知识库。

1.2.3结论

我给这个软件的评价是e）非常推荐。理由如下：因为这个模型可以联网，让我感到耳目一新，并且联网后大模型的灵活性得到前所未有的提高，虽然说Kimi在语言理解上差强人意，但是我还是很推荐。

二、分析

2.1开发时间估计

如果我的团队是我加上五个计算机天才组成的六人团队，才有可能在一个合理的时间内设计出一个大语言模型网站。预估做到这个程度的话可以能需要个一学期20周吧。

2.2同类产品对比排名

因为有同类型的产品进行参照，所以我们的产品肯定不会排名很低，我希望它能排到第一名，先做到中国第一，再从中国第一做到世界第一。我们的产品应该有如下的优势：1.回答生成速度快；2.回答的准确性高；3.交流流畅；4.能联网；5.算法顶尖。劣势：因为要做到世界第一，所以不能有劣势。

2.3软件工程方面的建议

因为现在大语言模型的遥遥领先者是Chatgpt,而Chatgpt的中文语料库不够强，gpt的中文回答没有英文的问答强，因此我们团队在训练语料库的选择上会着重选择大量的中文语料，大量使用中文数据，拔高国内的中文语言大模型的高度，赶超外国的大模型。即侧重点在于中文化。

2.4BUG存在的原因分析

之前发现的两个bug，产生的原因我认为又如下几点：
文心一言的字数bug：1.训练模型时开发人员粗心，没有正确的解释准确数和范围的概念；2.因为大模型算法的局限性，导致模型没办法正确理解上面的两个概念之间的区别。
Kimi的成语bug：我认为Kimi的硬实力不在与对话的完美，而是在于作为一个特殊但不强的大模型语言存在，开发人员时间和精力有限，没办法开发出一个很完备的大模型。

2.5BUG存在分析后的思考

我觉得上述的问题都不是团队真正存在某些实质性的问题，而是因为大环境迫使开发人员做出了取舍。现在AI大模型的竞争非常激烈，开发团队在有限的时间内要开发出一个理想的大语言模型就可能需要对模型的完备性、功能性等做出某些取舍，而这些取舍就导致了上面的两个bug。所以我不想在这里

三、建议和规划

3.1市场概况

市场规模：AI大模型语言软件市场正在迅速扩张，预计全球市场规模在未来五年内将达到数十亿美元。随着AI技术的不断进步和应用领域的拓宽，从自动化客服到内容创作，再到数据分析和研究辅助，AI语言模型软件的应用正变得越来越广泛。
直接用户与潜在用户：直接用户主要包括企业、研究机构和开发者，他们利用AI语言模型进行数据分析、自动化客服、内容生成等任务。潜在用户群体则更加广泛，包括中小型企业、教育行业、非技术背景的个人用户等，他们可能对AI技术的易用性和可访问性有更高的要求。

3.2市场现状

**现有产品：**市场上已有一些成熟的AI语言模型软件，如Chatgpt、BERT、文心一言、Kimi等，它们在自然语言处理领域取得了显著的成果。然而，这些产品在易用性、成本效益和定制化方面仍有改进空间。
产品定位与优劣势：GPT以其强大的文本生成能力而闻名，但成本较高，且对普通用户的可访问性有限。BERT在理解上下文方面表现出色，但需要更多的定制化开发，以适应特定的应用场景。
竞品关系与竞争态势：这些产品之间存在直接竞争关系，同时也有合作的可能性。例如，一些平台可能同时集成GPT-3和BERT，以提供更全面的服务。竞争态势方面，随着技术的快速发展，市场上不断有新的参与者加入，竞争日益激烈。
市场阶段：AI语言模型软件市场目前正处于成长期，随着技术的成熟和应用案例的增多，市场正逐渐走向成熟。

3.3市场与产品生态

核心用户群与典型用户：核心用户群主要是技术公司和研究机构，他们对AI技术有深入了解，并寻求将其应用于实际问题解决中。典型用户可能是数据科学家、软件工程师或研究人员，他们通常拥有较高的学历，对AI技术感兴趣，并希望通过技术提高工作效率。当然还有学生党。
用户群体间的关系与生态构建：用户群体之间可以通过社区、论坛等方式进行交流和协作，共享经验和最佳实践。此外，开发者可以为非技术用户提供教程和工具，帮助他们更好地利用AI语言模型软件。
产品与子产品间的关系：AI语言模型软件可以与其他AI产品如图像识别、数据分析等进行集成，形成更为全面的AI解决方案。通过构建一个产品生态系统，可以为用户提供一站式的AI服务。

3.4产品规划

新功能设计：基于当前软件的基础上，我们可以设计一个用户友好的界面，使得非技术背景的用户也能轻松使用AI语言模型。此外，增加多语言支持和定制化功能，以满足不同用户的需求。
NABCD分析：
需求（N）：市场对易于使用、成本效益高的AI语言模型软件有强烈需求。
优势（A）：我们的软件提供了用户友好的界面和定制化服务，降低了AI技术的门槛。
成本（B）：通过优化算法和提高效率，我们能够控制成本。
风险（C）：技术更新迅速，需要持续投入研发以保持竞争力。
差异化（D）：我们的软件通过提供定制化和多语言支持，与其他产品形成差异化。
团队角色配置与规划：
角色配置：招聘一名前端开发、一名后端开发、一名数据科学家、一名UI/UX设计师、一名市场营销专家和一名项目经理。
详细规划：
第1-2周：完成市场调研和需求分析。
第3-4周：设计软件架构和用户界面。
第5-8周：开发新功能和多语言支持。
第9-12周：进行软件测试和调试。
第13-14周：准备市场推广材料和策略。
第15-16周：发布软件并收集用户反馈，进行必要的调整。
通过上述规划，我们可以确保在16周内完成软件的改进版本，并根据市场反馈进行优化，以取得预想中的成绩。

222100425郑钦铭

关注

28
点赞
踩
35

收藏

觉得还不错? 一键收藏
2
评论
软件工程实践——软件评测作业

因为现在大语言模型的遥遥领先者是Chatgpt,而Chatgpt的中文语料库不够强，gpt的中文回答没有英文的问答强，因此我们团队在训练语料库的选择上会着重选择大量的中文语料，大量使用中文数据，拔高国内的中文语言大模型的高度，赶超外国的大模型。对用户的体验来说，较小程度的影响用户的体验，需要用于再进一步的扩充生成的文章，才能得到想要的答案。Kimi的成语bug：我认为Kimi的硬实力不在与对话的完美，而是在于作为一个特殊但不强的大模型语言存在，开发人员时间和精力有限，没办法开发出一个很完备的大模型。
复制链接

扫一扫