这个作业属于哪个课程 | 2302软件工程 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 学会对产品进行调研评测与分析, 并给出建议和规划 |
其他参考文献 | 《构建之法》 |
文章目录
第一部分 调研,评测
(一)文心一言
1.使用体验
1.1 介绍
文心一言是一款包括回答各种问题、提供知识和信息,以及参与对话和交流的人工智能语言模型。可以通过学习和处理大量的语言数据,来理解并回答各种问题,包括历史、科学、文化、娱乐等各种领域的问题。
经过我的一番使用后,我认为文心一言的主要功能有解答问题
、画图
、识图
、文本创作
、百宝箱
。接下来对这几个功能进行评测。
1.2 基本功能介绍和使用
(1)解答问题
提出疑问,软件就会自动回答
(2)画图
文心一言根据描述图片的文字生成对应的图片
(3)识图
上传图片,文心一言根据上传的图片提取出图片的要素
(4)文本创作
根据输入的文本要求生成一篇符合要求的短篇
(5)百宝箱
按照各种场景和各种职业进行分类
1.3 优缺点分析
-
优点
①页面简洁美观,一问一答很清晰
②响应迅速,可以即时响应用户的问题,并在短时间内提供答案,这为用户提供了高效的查询体验。
③知识覆盖广,拥有大量的学习数据和算法,能够覆盖广泛的主题和领域
④画图功能具有一点的创新性和快速性,相比传统手绘或数字绘画,文心一言能在短时间内创造出一幅大致符合条件的画
⑤识图功能简单易上手,适用于大部分场景
⑥文本创作生成很快,基本可以符合要求的元素
-
缺点
①依赖数据,对于一些未在训练数据中出现过的无法响应。如果训练数据错误,会给出错误的答案。
②无法处理复杂情景,对于涉及复杂情感或主观判断的问题,回答不够灵活和准确。
③画出来的图AI风格严重,让人一眼看出来是AI做的。
④对于具有特殊含义的图,无法识别出来,只能看出表层含义
⑤文本创作的文笔不够好,而且需要提供详细具体的描述
⑥百宝箱的底部直达任务栏,ui设计让人不舒服
1.4 改进意见
- 确保训练数据的质量和多样性,减少偏见和歧视性。采取措施避免数据集的不平衡,例如通过更广泛的数据采集或使用数据增强技术。
- 加大对人工智能的投入,提高自主学习能力和创造性。
1.5 用户采访
采访了一位软工的同学,他日常需求就是提问一下专业的问题和解释一些代码
- ta认为文心一言的亮点是易于使用
- 缺点就是不够智能,字数限制
- 改进的地方
2.BUG描述
2.1 Bug发生时的测试环境
- 操作系统版本:Win10
- 浏览器:Microsoft Edge
- 发生时间:2024/4/14
2.2 Bug量化指标
严重程度 | 注释 |
---|---|
★ | 建议型问题,对系统功能几乎没有什么影响,不影响安全性,也不影响用户使用 |
★★ | 界面问题,对系统功能有较小的影响,不影响安全性,稍微影响用户使用 |
★★★ | 一般错误,对系统功能有一般程度的影响,不影响安全性,比较影响用户使用 |
★★★★ | 严重错误,对系统功能有很大程度的影响,影响安全性,非常影响用户使用 |
★★★★★ | 致命错误,对系统功能有严重程度的影响,严重影响安全,极其影响用户使用 |
2.3Bug的详情
(1) 使用画图功能后,接下来的问题只要带“画”字都会变成画图
- 可复现性:必然发生
- 具体复现步骤:①随便画一张图②提问带“画”字
-
BUG的可能成因:
训练数据时没有提供对应的检测
-
BUG的严重性:★★★★
-
理由:只要接下来的提问带“画”字,都会被转换成画图,无法继续提问
-
对BUG的预期及改进建议:
在这种情况下,应该理解一下用户的问题再选择下一步动作。比如用户说“解释一下上面的画”,应该转换为识图或者把画图的要素提取出来进行解析。又或者用户说”不要在画了“,就停下。
3.结论
3.1定性结论
结论:好,不错
理由:
①作为国内的AI,易于国人使用
②功能齐全,虽然某些功能并不强大,但是已经满足部分需求
综上,文心一言是一款比较推荐的AI网站。
3.2定量结论(满分100)
参考资料来自:软件分析和用户需求调查 (2013 - 2014)
评分细则:满分 10 分, 良好 6 分, 及格 4 分,聊胜于无 1 分, 很差 -3 分
类别 | 描述 | 说明 | 评分 |
---|---|---|---|
核心功能 | 核心功能的功能设计和质量 | 核心功能完整 | 6 |
细节 | 为用户考虑的细节 | 4 | |
用户体验 | 当用户完成功能时,不干扰用户 | 关闭网页就结束 | 10 |
辅助功能 | 一些辅助功能如皮肤等 | 百宝箱的设计 | 6 |
差异化功能 | 软件独特的功能 | 5 | |
软件的效能 | 占用内存, 启动速度, 内存泄漏情况 | 5 | |
软件的适应性 | 在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作. 和不同平台的软件能流畅协作 | 只要联网就能操作,能在各个平台运行 | 5 |
成长性 | 记住用户的选择, 适应用户的特点,用户越用越方便 | 可以创建指令,方便用户将熟悉的指令存储起来 | 6 |
用户有控制权 | 用户方便地从错误中恢复工作, 快捷操作键可调整 | 可以将问题重新编辑 | 8 |
内容质量 | 网站所提供信息的真实性、全面性、权威性、及时性 | 6 | |
最终得分 | 80-100,非常好。50-79,良好。30-49,一般。0-29,差。 | 61 |
(二)通义千问
1.使用体验
1.1 介绍
通义千问是阿里云自主研发的超大规模语言模型,也能够回答问题、创作文字,还能表达观点、撰写代码。
1.2 基本功能介绍和使用
(1)文本回答
提出疑问,软件就会自动回答
(2)画图
根据描述图片的文字生成对应的图片
(3)图片理解
上传图片,根据上传的图片提取出图片的要素
(4)解析文档
提交文档并解析
(5)百宝袋
按照各种场景进行分类
1.3 优缺点分析
-
优点
①页面简洁美观,一问一答很清晰
②更加精准的回答能力
③知识覆盖广,拥有大量的学习数据和算法,涵盖科学、文化、历史、技术、生活等领域。
④画的图更符合要求和审美
⑤图片理解功能简单易上手,适用于大部分场景
⑥解析文档方便且准确
-
缺点
①生成速度慢
②无法处理复杂情景,对于涉及复杂情感或主观判断的问题,回答不够灵活和准确。
③依赖数据,对于一些未在训练数据中出现过的无法响应。如果训练数据错误,会给出错误的答案。
④对于具有特殊含义的图,无法识别出来,只能看出表层含义
⑤百宝袋无法多轮交流
⑥百宝袋需要新开一个页面
1.4 改进意见
- 加大对人工智能的投入,优化算法提高速度
- 把百宝袋集成进主页,而不是新开一个页面
1.5 用户采访
- 用户认为通义千问相比文心一言,速度慢但是质量高
2.BUG描述
2.1 Bug发生时的测试环境
- 操作系统版本:Win10
- 浏览器:Microsoft Edge
- 发生时间:2024/4/14
2.2 Bug量化指标
严重程度 | 注释 |
---|---|
★ | 建议型问题,对系统功能几乎没有什么影响,不影响安全性,也不影响用户使用 |
★★ | 界面问题,对系统功能有较小的影响,不影响安全性,稍微影响用户使用 |
★★★ | 一般错误,对系统功能有一般程度的影响,不影响安全性,比较影响用户使用 |
★★★★ | 严重错误,对系统功能有很大程度的影响,影响安全性,非常影响用户使用 |
★★★★★ | 致命错误,对系统功能有严重程度的影响,严重影响安全,极其影响用户使用 |
2.3Bug的详情
(1) 停止回答后重新提问,停止的回答会“诈尸”
- 可复现性:必然发生
- 具体复现步骤:①停止回答②重新提问
-
BUG的可能成因:
可能是终止回答后还在生成,但是设置了停止时的字数,导致再次提问时触发生成特效
-
BUG的严重性:★
-
理由:让人惊讶,但是不影响体验
-
对BUG的预期及改进建议:
预期是停止的回答不会在有动静
3.结论
3.1定性结论
结论:好,不错
理由:
①作为国内的AI,易于国人使用
②生成的内容较为准确
综上,通义千问是一款挺不错的语言模型。
3.2定量结论(满分100)
参考资料来自:软件分析和用户需求调查 (2013 - 2014)
评分细则:满分 10 分, 良好 6 分, 及格 4 分,聊胜于无 1 分, 很差 -3 分
类别 | 描述 | 说明 | 评分 |
---|---|---|---|
核心功能 | 核心功能的功能设计和质量 | 核心功能完整 | 6 |
细节 | 为用户考虑的细节 | 4 | |
用户体验 | 当用户完成功能时,不干扰用户 | 关闭网页就结束 | 10 |
辅助功能 | 一些辅助功能如皮肤等 | 百宝袋的设计 | 6 |
差异化功能 | 软件独特的功能 | 文档解析 | 7 |
软件的效能 | 占用内存, 启动速度, 内存泄漏情况 | 5 | |
软件的适应性 | 在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作. 和不同平台的软件能流畅协作 | 只要联网就能操作,能在各个平台运行 | 5 |
成长性 | 记住用户的选择, 适应用户的特点,用户越用越方便 | 可以设置指令 | 6 |
用户有控制权 | 用户方便地从错误中恢复工作, 快捷操作键可调整 | 可以将问题重新编辑 | 8 |
内容质量 | 网站所提供信息的真实性、全面性、权威性、及时性 | 6 | |
最终得分 | 80-100,非常好。50-79,良好。30-49,一般。0-29,差。 | 63 |
第二部分 分析
(一)开发时间估计
-
复杂性和规模: 不同阶段的复杂性和规模会影响所需的时间。例如,数据收集和预处理可能需要更多时间,特别是如果数据源多样且需要进行复杂的清洗和标记。
-
依赖关系: 某些阶段可能依赖于前一个阶段的完成。例如,模型训练与优化可能需要先完成数据收集和预处理。
根据以上两点我对产品开发时间的预估如下:
阶段 | 预估时间 |
---|---|
需求分析 | 2周 |
技术选型 | 1周 |
数据收集与预处理 | 4周 |
模型训练与优化 | 12周 |
后端开发 | 8周 |
前端开发 | 8周 |
集成与部署 | 2周 |
测试与调试 | 4周 |
用户反馈与优化 | 持续进行 |
(二)同类产品对比排名
指标 | 通用千问 | ChatGPT3 | ChatGPT4 | 文心一言 | Kimi |
---|---|---|---|---|---|
语言流畅度和自然性(20) | 18 | 17 | 19 | 19 | 16 |
语义准确性(20) | 18 | 18 | 19 | 17 | 15 |
多样性和创造性(15) | 15 | 14 | 15 | 14 | 13 |
上下文理解和连贯性(15) | 14 | 14 | 15 | 14 | 12 |
稳定性和鲁棒性(15) | 14 | 15 | 15 | 15 | 13 |
速度和效率(5) | 4 | 4 | 5 | 4 | 4 |
可解释性和可控性(5) | 4 | 3 | 4 | 4 | 3 |
资源消耗(5) | 4 | 3 | 4 | 4 | 4 |
总分 | 91 | 88 | 96 | 91 | 80 |
综上,我认为ChatGPT4 > 通用千问 = 文心一言 > ChatGPT3 > Kimi
(三)软件工程方面的建议
-
对文心一言
- 软件测试的优化,建立完善的测试管理体系,明确测试目标、测试范围、测试环境等
- 项目管理的优化,完善项目计划管理,制定详细的项目计划,包括项目范围、进度、资源、风险等
-
对通义千问
- 软件架构设计的优化,提升模块化设计,合理划分软件系统的功能模块,并明确各模块的职责边界
- 开发流程的优化,采用敏捷开发方法,通过短迭代周期、持续集成、持续交付等方式,提高开发效率
(四)BUG存在的原因分析
网站名称 | BUG描述 | 原因分析 |
---|---|---|
文心一言 | 使用画图功能后,接下来的问题只要带“画”字都会变成画图 | 我认为是开发人员粗心大意,对模型的训练不够全面导致的,出现“画”关键字就触发画图 |
通义千问 | 停止回答后重新提问,停止的回答会“诈尸” | 我认为是测试把关不严,敷衍了事,没有考虑到用户可能会终止回答后再重新提问 |
第三部分 建议和规划
(一)市场概况
- 市场规模
AI 市场的规模和发展前景非常广阔。
- 根据IDC的数据,2022年全球AI市场规模预计达到3,682亿美元,未来几年将以超过20%的年复合增长率快速增长,预计到2029年将超过5.4万亿美元。
- AI技术被广泛应用于金融、医疗、零售、制造、交通等各个行业,是未来最具前景的技术领域。
- 用户群体
- 直接用户包括企业、政府、研究机构等各类组织机构。根据Gartner的数据,2022年全球有近40%的组织在使用AI技术。
- 潜在用户包括广大个人消费者,AI技术将深入各行各业,最终惠及普通用户。
(二)市场现状
- 已有产品
- GPT系列:OpenAI基于Transformers的通用语言模型,能进行文本生成、理解、翻译等任务
- BERT和T5:Google开发的语言理解和生成模型,广泛应用于搜索引擎和自然语言处理
- 文心一言:百度基于ERNIE框架开发的多模态大模型,能处理语言、图像等任务
- 通义千问:阿里开发的专注于中文问答和信息提取的自然语言处理模型
- Kimi:月之暗面开发的支持中文的长文本对话和语言理解模型
- 产品定位
产品 | 定位 | 优势 | 劣势 |
---|---|---|---|
GPT系列 | 通用语言模型,可用于文本生成、理解、翻译等任务 | 强大的生成能力,适用广泛 | 可解释性较弱,可能产生不当内容 |
BERT和T5 | 语言理解和生成模型,广泛应用于搜索引擎和NLP | 在理解和语义分析方面表现出色 | 针对特定任务优化程度有限 |
文心一言 | 多模态大模型,可处理语言、图像等任务 | 跨模态能力强,应用前景广阔 | 可解释性和可控性仍有提升空间 |
通义千问 | 专注于中文问答和信息提取的NLP模型 | 擅长中文理解和知识提取 | 针对性强,难以迁移到其他任务 |
Kimi | 支持中文的长文本对话和语言理解模型 | 擅长处理长对话,体现出较强的语境理解 | 速度和效率可能有待提高 |
- 行业发展阶段
AI(人工智能)这个领域当前可以被认为是处于“风口”阶段。随着技术的不断发展和应用领域的不断拓展,AI技术正在迎来快速发展和广泛关注的时期。企业、政府和学术界都在积极探索AI的应用,投资者对于AI领域的创业项目也显示出浓厚的兴趣。
(三)市场与产品生态
- 核心用户群
典型用户的特征:
- 学历:通常拥有较高的学历,如本科或更高学位,因为这部分用户更容易理解并运用AI产品。
- 年龄:覆盖较广,但以25-45岁之间的技术从业人员和企业决策者为主。
- 专业:IT、科技、营销、教育、法律等领域的专业人士。
- 爱好:对新技术、数据分析、自动化工具等有浓厚兴趣。
- 收入:中到高收入群体,能够承担AI产品带来的成本投入。
- 表面需求:提高工作效率、优化决策过程、获取数据洞察、教育和学习工具等。
- 潜在需求:个性化服务、更高的数据安全和隐私保护、更智能的交互体验。
- 用户群体之间的关系
AI产品的用户通常在某些领域或行业内部形成小型的社区或网络,例如技术开发者、数据科学家和业务分析师等,他们可能会在论坛、研讨会和网络研讨会上交流想法和最佳实践。利用这些社区的相互作用可以构成特定的用户生态,例如通过用户反馈和社区建议来改进产品。
- 子产品与相关产品的关系
AI主产品如ChatGPT往往衍生出多个子产品或相关产品,例如面向不同行业的定制化版本或集成解决方案。这些产品之间可以形成一种互补和增强的关系。例如,基于ChatGPT的教育工具可以与在线课程平台集成,提供更加互动和个性化的学习体验。通过这种方式,可以利用产品特性之间的相互关系二次构成一个更加丰富和多样的产品生态。
(四)产品规划
1. 新功能及NABCD分析
-
功能描述:在当前软件的基础上增加
导入聊天记录
的功能,可以显著提高用户体验,特别是希望继续别人聊天记录的用户,比如同一小组的成员。 -
NABCD 分析:
NABCD | 详情 |
---|---|
N(Need,需求) | - 用户需要在不同设备间同步聊天历史,以便无缝继续对话。 - 用户希望导入历史对话记录以利用AI进行数据分析或获取个性化建议。 |
A(Approach,做法) | - 开发一个导入工具,允许用户上传聊天记录的文件(如.txt或.json格式)。 - 对导入的数据进行解析,安全地存储在用户的个人账户中,并能在聊天界面中恢复这些对话。 |
B(Benefit,好处) | - 用户可以不受设备和账号限制地继续之前的对话. - 通过分析历史对话,AI可以提供更加个性化的响应和建议。 |
C(Competitors,竞争) | - 目前市场上少数AI聊天助手支持聊天历史的导入功能,大多集中在导出功能上。 |
D(Delivery,推广) | - 提供一种简便的方法来不仅导入文本数据,还包括语音和图片等多媒体信息。 - 强化隐私保护措施,确保用户数据的安全导入与使用。 |
2. 角色配置
- 2名软件开发工程师:负责开发前后端功能。
- 1名机器学习工程师:优化数据解析和集成算法。
- 1名测试工程师:负责确保功能的可靠性和数据安全。
- 1名用户体验(UX)设计师:设计直观的用户界面和交互流程。
- 1名项目经理:负责监督项目进度和团队协调。
3. 项目规划
周数 | 内容 |
---|---|
第1周 | - 团队集结和介绍项目目标。 - 项目经理进行项目范围和目标的详细说明。 - 确定沟通和报告机制。 |
第2-3周 | - 收集用户反馈和市场需求,明确功能具体需求。 - 分析现有系统和确定技术需求。 - 完成需求规格书和系统设计文档。 |
第4-5周 | - UX设计师创建初步的界面草图和用户流程图。 - 软件工程师设计系统架构和数据处理流程。 - 机器学习工程师定义数据解析算法的需求。 |
第6-9周 | - 软件工程师按模块开发前后端功能。 - 机器学习工程师开发和训练数据解析模型。 - UX设计师根据开发进度调整和完善界面设计。 |
第10-12周 | - 测试工程师进行单元测试和集成测试,记录问题。 - 开发团队根据测试结果修复bug并优化系统。 - 机器学习工程师优化算法性能。 |
第13-14周 | - 进行闭群测试,邀请限定用户测试新功能,收集反馈。 - 分析用户反馈,进行必要的功能调整和优化。 - 准备产品发布支持文档和用户手册。 |
第15周 | - 进行最终的质量检查和系统优化。 - 确定发布计划和市场推广策略。 - UX设计师和项目经理审核最终产品的用户界面和用户体验。 |
第16周 | - 正式发布新功能。 - 监控功能运行状态,收集初始用户反馈。 - 项目经理和团队进行项目回顾,评估项目结果和团队表现。 |