这个作业属于哪个课程 | 软件工程实践-2023学年-W班 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 对几个语言模型网站进行调研、评测,并给出分析、 建议和规划 |
其他参考文献 | 《构建之法》 |
文章目录
一、调研和评测
1文心一言
1.1使用体验
1.1.1基本功能介绍和使用
生成代码
回答问题
生成图片
1.1.2优缺点分析
优点
1.方便在国内使用,使用门槛低。
2.大部分的基础问题都能得到有效回答。
3.除了直接对话之外,还支持上传图片和文档。
缺点
1.百宝箱界面里的功能太杂乱,界面不美观。
2.回答问题有字数限制,当回答的字数过多会戛然而止。
3.理解上下文的能力差,难以对问题进行进一步追问。
4.画图功能存在较大漏洞,即使是要求十分单一,给出的图像也能够完全不相干。
1.1.3改进意见
1.加强画图功能,提高画图回答的准确性。
2.解决回答字数限制的缺点,可以把超过字数限制的回答分成多段发送。
3.加强上下文联系的能力。
1.2bug
bug描述
画图能力弱,对于简单要求给出的图像也十分不准确
BUG测试环境
系统:win10
浏览器:Microsoft Edge 版本 123.0.2420.97 (正式版本) (64 位)
测试时间:2024/4/16
Bug的可复现性及具体复现步骤
可复现性:在测试环境相同的情况下必然发生
复现步骤以及现象:叫它画一匹马,然后它会胡乱画图就是画不出马。此外对于其他一些非人像图像它也不能够准确生成。
Bug分析
可能成因:对于画图功能,提供的训练数据太少,估计大部分的画图训练数据是关于人像的,以至于除了人像之外的大多数画图回答都不够准确。
严重程度:★★★☆☆
画图功能连简单的要求都回答不准,说明画图功能的测试数据太少,存在较大的漏洞,当前的画图功能体验不佳。
1.3结论
评级:一般
回答简单问题的能力不错,但对于复杂问题和生成图像以及联系上下文,功能有较大缺陷。
类别 | 描述 | 评分 (每项满分 10 分) |
---|---|---|
核心功能 | 回答问题,生成图片,解析图片、文档 | 6 |
用户体验 | 当用户完成功能时,不干扰用户 | 6 |
细节 | 细节是否完善 | 7 |
用户有控制权 | 系统状态有反馈,等待时间要合适 | 7 |
界面设计 | 界面比较美观,简洁 | 5 |
总分:31 |
1.4用户采访
Q:如何评价文心一言的画图功能?
A:回答牛头不对马嘴,十分的鸡肋。
2通义千问
2.1使用体验
2.1.1基本功能介绍和使用
生成代码
回答问题
生成图像
2.1.2优缺点分析
优点
1.官网整洁无vip广告、美观且有不错的动画效果。功能界面也很简洁,方便用户使用。界面的观感比文心一言好太多。
2.图片生成得较为准确,即使是无法准确生成的图像也给出了相关的说明,能理解用户的需求,而不是想文心一言一样生成一个不相干的图片还不加以说明。
3.支持图片和文档的理解,功能性足以供用户的日常使用。
4.回答得比文心一言智能,理解能力更强。
缺点
1.生成图片虽然准确率不错但是生成速度较慢。
2.对于复杂和专业性强的问题也难以给出好的回答。
2.1.3改进意见
虽然文字和图片生成较为智能且准确,但是生成速度过慢,可以优化一下速度。在生成图片的过程中没有显示进度条,只显示正在生成中,加上生成速度慢的问题可能会让用户觉得自己死机了或者卡了,可以改进一下生成过程中的等待说明比如加进度条。
2.2bug
暂无
2.3结论
评级:好,不错
官网界面美观、整洁,功能界面简洁、齐全,生成图像、回答问题也较为智能、准确;理解能力也比文心一言强,只不过就是存在生成速度慢的问题,如果能优化速度就更好了。
类别 | 描述 | 评分 (每项满分 10 分) |
---|---|---|
核心功能 | 回答问题,生成图片,解析图片、文档 | 8 |
用户体验 | 当用户完成功能时,不干扰用户 | 9 |
细节 | 细节是否完善 | 8 |
用户有控制权 | 系统状态有反馈,等待时间要合适 | 6 |
界面设计 | 界面比较美观,简洁 | 9 |
总分:40 |
2.4用户采访
Q:通义千问的体验感受
A:回答较为智能准确,只不过生成速度较慢,总体感觉不错。
二、分析
2.1开发时间估计
文心一言:12个月
通义千问:14个月
理由:开发语言模型需要大量的训练,训练需要耗费大量的时间,总体开发的时间难以预料,估计至少要一年。
2.2同类产品对比和排名
类别 | 文心一言 | 通义千问 |
---|---|---|
核心功能 | 6 | 8 |
用户体验 | 6 | 9 |
细节 | 7 | 8 |
用户有控制权 | 7 | 6 |
界面设计 | 5 | 9 |
总体而言,通义千问比文心一言的使用体验更佳,只是生成的速度慢。
2.3软件工程方面的建议
文心一言:加强训练,提高模型的智能程度。
通义千问:优化生成文本和图片的速度。
2.4BUG存在的原因分析
可能是测试人员没有在多种环境下测试导致的。
三、建议和规划
3.1市场概况
市场规模和用户规模仍在不断扩大,在市场规模不断扩大的同时,各企业之间的竞争也十分激烈。各公司都在加大研发投入,争夺市场份额和技术领先地位。同时,围绕知识产权、数据安全、伦理道德等问题,大语言模型领域也面临着一系列政策和法规挑战。总体来看,在未来几年内随着技术进步,大语言模型的市场会更加庞大。
直接用户:各企业和教育机构。
潜在用户:几乎所有在办公室工作的员工和在校学生。
3.2市场现状
市场规模快速增长,大语言模型市场规模在世界各地实现了显著提升行业处于快速扩张阶段。
市场上有很多大语言模型,比如ChatGPT、文心一言和通义千问等。它们都有各自的优缺点,比处于竞争状态。
并且大语言模型运用广泛,很多行业都有需求,且已经被广泛应用到搜索引擎、智能客服、机器翻译、情感分析、金融市场预测与风险评估、企业办公自动化等诸多领域,并展现出卓越的能力和广泛的适用性。
但也带来了一系列问题,发展大语言模型面临数据安全、隐私保护、版权问题以及如何规范模型使用等方面的挑战,可能后续也有相关政策出台进行管控;此外在技术层面上,算力和存储能力仍然是制约大语言模型进一步发展的瓶颈之一,亟待通过技术研发和基础设施建设来解决。
总之市场处于成长期。
3.3产品生态
核心用户:应该是在办公室工作的员工和在校学生
用户需求:这些用户的需求大多是完成一些重复但又费力的文书工作,比如些报告和ppt等。
3.4产品规划
3.4.1功能
由于有大量学生使用大语言模型来帮助自己学习新知识,故在其他大模型的基础上增加一个帮助学习的功能。
3.4.2NABCD分析
1.Need
- 有大量学生使用大语言模型来辅助学习新知识
2.Approach
- 加大模型的知识面,并添加一个帮助学习的新功
3.Benefit
- 帮助学生提高学习效率
4.Competitors
- 其他语言大模型
5.Delivery
- 投放广告
3.4.3角色配置与周期规划
角色配置
项目经理:1人
开发团队:3人
设计人员:1人
测试、训练人员:1人
周期规划
周期 | 目标 |
---|---|
1-2 | 项目经理和设计人员完成需求分析和原型设计 |
3-10 | 开发团队进行开发,测试人员进行测试,先开发出测试版本 |
11-14 | 进行数据训练,然后不断进行优化 |
15-16 | 进行软件发布前的最后检查和验收 |