软件工程实践——软件评测作业

这个作业属于哪个课程软件工程实践-2023学年-W班
这个作业要求在哪里软件工程实践——软件评测作业
这个作业的目标对几个语言模型网站进行调研、评测,并给出分析、 建议和规划
其他参考文献《构建之法》

一、调研和评测

1文心一言

网站地址

1.1使用体验

1.1.1基本功能介绍和使用

生成代码

在这里插入图片描述

回答问题

在这里插入图片描述

生成图片

在这里插入图片描述

1.1.2优缺点分析

优点

1.方便在国内使用,使用门槛低。
2.大部分的基础问题都能得到有效回答。
3.除了直接对话之外,还支持上传图片和文档。

缺点

1.百宝箱界面里的功能太杂乱,界面不美观。
2.回答问题有字数限制,当回答的字数过多会戛然而止。
3.理解上下文的能力差,难以对问题进行进一步追问。
4.画图功能存在较大漏洞,即使是要求十分单一,给出的图像也能够完全不相干。

1.1.3改进意见

1.加强画图功能,提高画图回答的准确性。
2.解决回答字数限制的缺点,可以把超过字数限制的回答分成多段发送。
3.加强上下文联系的能力。

1.2bug

bug描述
画图能力弱,对于简单要求给出的图像也十分不准确

在这里插入图片描述

BUG测试环境

系统:win10
浏览器:Microsoft Edge 版本 123.0.2420.97 (正式版本) (64 位)
测试时间:2024/4/16

Bug的可复现性及具体复现步骤

可复现性:在测试环境相同的情况下必然发生
复现步骤以及现象:叫它画一匹马,然后它会胡乱画图就是画不出马。此外对于其他一些非人像图像它也不能够准确生成。

Bug分析

可能成因:对于画图功能,提供的训练数据太少,估计大部分的画图训练数据是关于人像的,以至于除了人像之外的大多数画图回答都不够准确。
严重程度:★★★☆☆
画图功能连简单的要求都回答不准,说明画图功能的测试数据太少,存在较大的漏洞,当前的画图功能体验不佳。

1.3结论

评级:一般
回答简单问题的能力不错,但对于复杂问题和生成图像以及联系上下文,功能有较大缺陷。

类别描述评分 (每项满分 10 分)
核心功能回答问题,生成图片,解析图片、文档6
用户体验当用户完成功能时,不干扰用户6
细节细节是否完善7
用户有控制权系统状态有反馈,等待时间要合适7
界面设计界面比较美观,简洁5
总分:31

1.4用户采访

Q:如何评价文心一言的画图功能?
A:回答牛头不对马嘴,十分的鸡肋。

2通义千文

网站地址

2.1使用体验

2.1.1基本功能介绍和使用

生成代码

在这里插入图片描述

回答问题

在这里插入图片描述

生成图像

在这里插入图片描述

2.1.2优缺点分析

优点

1.官网整洁无vip广告、美观且有不错的动画效果。功能界面也很简洁,方便用户使用。界面的观感比文心一言好太多。
2.图片生成得较为准确,即使是无法准确生成的图像也给出了相关的说明,能理解用户的需求,而不是想文心一言一样生成一个不相干的图片还不加以说明。
3.支持图片和文档的理解,功能性足以供用户的日常使用。
4.回答得比文心一言智能,理解能力更强。

缺点

1.生成图片虽然准确率不错但是生成速度较慢。
2.对于复杂和专业性强的问题也难以给出好的回答。

2.1.3改进意见

虽然文字和图片生成较为智能且准确,但是生成速度过慢,可以优化一下速度。在生成图片的过程中没有显示进度条,只显示正在生成中,加上生成速度慢的问题可能会让用户觉得自己死机了或者卡了,可以改进一下生成过程中的等待说明比如加进度条。

2.2bug

暂无

2.3结论

评级:好,不错
官网界面美观、整洁,功能界面简洁、齐全,生成图像、回答问题也较为智能、准确;理解能力也比文心一言强,只不过就是存在生成速度慢的问题,如果能优化速度就更好了。

类别描述评分 (每项满分 10 分)
核心功能回答问题,生成图片,解析图片、文档8
用户体验当用户完成功能时,不干扰用户9
细节细节是否完善8
用户有控制权系统状态有反馈,等待时间要合适6
界面设计界面比较美观,简洁9
总分:40

2.4用户采访

Q:通义千问的体验感受
A:回答较为智能准确,只不过生成速度较慢,总体感觉不错。

二、分析

2.1开发时间估计

文心一言:12个月
通义千问:14个月

理由:开发语言模型需要大量的训练,训练需要耗费大量的时间,总体开发的时间难以预料,估计至少要一年。

2.2同类产品对比和排名

类别文心一言通义千问
核心功能68
用户体验69
细节78
用户有控制权76
界面设计59

总体而言,通义千问比文心一言的使用体验更佳,只是生成的速度慢。

2.3软件工程方面的建议

文心一言:加强训练,提高模型的智能程度。
通义千问:优化生成文本和图片的速度。

2.4BUG存在的原因分析

可能是测试人员没有在多种环境下测试导致的。

三、建议和规划

3.1市场概况

市场规模和用户规模仍在不断扩大,在市场规模不断扩大的同时,各企业之间的竞争也十分激烈。各公司都在加大研发投入,争夺市场份额和技术领先地位。同时,围绕知识产权、数据安全、伦理道德等问题,大语言模型领域也面临着一系列政策和法规挑战。总体来看,在未来几年内随着技术进步,大语言模型的市场会更加庞大。
直接用户:各企业和教育机构。
潜在用户:几乎所有在办公室工作的员工和在校学生。

3.2市场现状

市场规模快速增长,大语言模型市场规模在世界各地实现了显著提升行业处于快速扩张阶段。
市场上有很多大语言模型,比如ChatGPT、文心一言和通义千问等。它们都有各自的优缺点,比处于竞争状态。
并且大语言模型运用广泛,很多行业都有需求,且已经被广泛应用到搜索引擎、智能客服、机器翻译、情感分析、金融市场预测与风险评估、企业办公自动化等诸多领域,并展现出卓越的能力和广泛的适用性。
但也带来了一系列问题,发展大语言模型面临数据安全、隐私保护、版权问题以及如何规范模型使用等方面的挑战,可能后续也有相关政策出台进行管控;此外在技术层面上,算力和存储能力仍然是制约大语言模型进一步发展的瓶颈之一,亟待通过技术研发和基础设施建设来解决。
总之市场处于成长期。

3.3产品生态

核心用户:应该是在办公室工作的员工和在校学生
用户需求:这些用户的需求大多是完成一些重复但又费力的文书工作,比如些报告和ppt等。

3.4产品规划

3.4.1功能

由于有大量学生使用大语言模型来帮助自己学习新知识,故在其他大模型的基础上增加一个帮助学习的功能。

3.4.2NABCD分析

1.Need

  • 有大量学生使用大语言模型来辅助学习新知识

2.Approach

  • 加大模型的知识面,并添加一个帮助学习的新功

3.Benefit

  • 帮助学生提高学习效率

4.Competitors

  • 其他语言大模型

5.Delivery

  • 投放广告

3.4.3角色配置与周期规划

角色配置

项目经理:1人
开发团队:3人
设计人员:1人
测试、训练人员:1人

周期规划

周期目标
1-2项目经理和设计人员完成需求分析和原型设计
3-10开发团队进行开发,测试人员进行测试,先开发出测试版本
11-14进行数据训练,然后不断进行优化
15-16进行软件发布前的最后检查和验收
  • 13
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值