这个作业属于哪个课程 | 软件工程实践-2023学年-W班 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件测评作业 |
这个作业的目标 | 对软件案例分析,评测,思辨,总结 |
其他参考文献 | 《构建之法》、CSDN |
(一) 调研,评测
1 文心一言
1.1 使用体验
1.1.1 介绍和使用软件
文心一言(Ernie Bot)是百度基于文心大模型技术推出的生成式对话产品。它主要是可以根据用户的输入生成各种类型的文本,如诗歌、故事、对话等。
1.1.2 优缺点分析
优点
- 大部分现如今已经解决的问题都能得到回答
- 使用方便,无论移动端还是网页端打开快捷
- 拥有指令上传图片上传文档的功能,方便使用
- 页面风格个人上还是喜欢的,比较简约
缺点
- 部分功能如图片生成等功能需要升级会员
- 回答风格十分死板,套用模板,缺乏感情色彩
- 无法提供语言风格选择的功能,无法做到语言风格的转换
- 以文生图功能十分鸡肋,几乎无法正确理解我的要求
- 上下文关联能力十分弱,无法联系上几次的问题进行下次问题的回答
1.1.3 用户意见
- 在chat4.0免费的背景下,尽快推进文心4.0的免费,不然竞争力可能不足
- 在模型训练中加入更多的语料库,以便丰富回答问题的风格色彩
- 优化画图算法,提高画图的准确性
- 优化上下文记录功能,可以结合前几次问题回答当前问题
1.1.4 用户采访
-
采访记录:
-
用户背景:同样是软件工程专业的学生,希望在作业上有问题时可以使用文心辅助
-
产品栏目:对话栏
-
问题:并不是什么十分特殊的符号,竟然也无法识别
我需要状态转换图,居然给我画了一个电梯??
-
评价和建议:文心一言的大语言模型的优化任重道远(
也可能是3.5比较鸡肋),增加语料库(至少不应该ATM都不认识),在遇到无法识别的词语如“状态转移图”,至少应该明确提出“我不明白状态转移图是什么意思”,而不是直接忽略,给用户一个及其离谱的回答。
1.2 bug描述
1.2.1 测试环境
Window10 ,Microsoft Edge版本123.0.2420.81 (正式版本) (64 位)
1.2.2 可复现性和具体步骤
- 可复现性:必然发生
- 步骤:在要求画图的前提下,使用英文缩写描述要求例如:帮我画一张ATM的图片
1.2.3 具体情况描述
一开始我只是想尝试让它帮我画ATM的状态图,意外发现居然无法理解ATM这个使用频率超高的缩写词
但当我直接问ATM的意思时,它是可以理解并解释ATM的。
后我尝试了更多测试用例,发现在要求作图时文心一言就会无法理解大多的英文和符号哪怕是十分常用的。
1.2.4 Bug分析
- 可能成因:文心一言只有在识别到“画”等关键字时才会启用它的画图功能,而基础对话功能和画图功能并不是共用一个字符数据库(
并不明白为什么要这么做),并且画图功能能理解的字符串十分贫乏。导致在用户想使用作图功能时,使用的英文缩写常常无法理解。 - 严重性:
量化标准
星级 | 描述 |
---|---|
★☆☆☆☆ | 微小细节错误或BUG,对软件功能影响不大,不会引起用户注意 |
★★☆☆☆ | 用户可能会注意到的明显错误,但不会严重影响体验 |
★★★☆☆ | 已经影响软件的功能或用户体验,但尚未对安全性和数据完整性造成威胁 |
★★★★☆ | 严重影响用户体验,可能导致系统故障、数据丢失或泄露 |
★★★★★ | 致命性系统故障,致命性安全性漏洞,用户体验严重影响 |
评价:★★★☆☆ 该bug影响了文言的以文生图功能,但在不需要作图的情况下影响不大,虽然影响了用户体验,但对系统安全性和数据完整性没有影响。
- 建议:拓展画图功能能识别的英文和符号,至少和对话功能同步,避免明明能理解“ATM机”却无法画出“ATM机”的窘况。
1.3 结论
- 一般推荐
维度 | 描述 | 评分(满分10分) |
---|---|---|
用户界面 | 清晰、直观、易用 | 6 |
功能完整性 | 是否满足用户需求,功能是否齐全 | 5 |
性能 | 响应速度、加载时间、资源消耗等 | 6 |
可靠性 | 是否稳定,是否容易崩溃或出错 | 7 |
安全性 | 用户数据是否安全,是否容易受到攻击或泄露 | 8 |
支持与维护 | 提供的支持服务质量,更新频率,bug修复速度等 | 7 |
价格 | 价格是否合理,是否提供免费试用或开源版本 | 7 |
可定制性 | 是否提供定制化的选项,是否易于扩展与集成 | 3 |
兼容性 | 是否兼容不同操作系统、设备以及其他软件 | 7 |
创新性 | 是否具有创新的特性或功能 | 4 |
用户满意度 | 用户对软件的整体满意度评价 | 6 |
文心一言有免费的3.5版本,若用作一个百度百科,回答生活上的常识问题和做一些简单的问答是完全足够的。但涉及到严谨性和正确性的问题无法保证,对比同类型产品chat3.5来说功能还不够强大。但文心一言如今仍在收集用户建议,保持一定强度的更新,相信在不久的将来会有不小的进步。
2 通义千问
2.1 使用体验
2.1.1 介绍和使用软件
通义千问是由阿里云自主研发的大语言模型,用于理解和分析用户输入的自然语言,在不同领域、任务内为用户提供服务和帮助。
2.1.2 优缺点分析
优点
- 页面风格简洁美观
- 拥有指令中心,实现更多丰富功能
- 有一定的上下文理解能力,可以通过用户输入不断修正回复
缺点
- 回复应答速度慢,生产力低
- 回复的内容可能与问题毫无关系,质量参差不齐
- 回复的格式刻板,没有感情色彩
- 语料库更新不及时,会有消息滞后的情况出现
2.1.3 用户意见
- 在模型训练中加入更多的语料库,以便丰富回答问题的风格色彩
- 提高回复用户的响应速度
- 修正和更新模型中的错误和偏差,提高回答的准确性
- 及时更新语料库中的数据,确保提供的答案具有时效性。
2.1.4 用户采访
-
采访记录:
-
用户背景:计算机科学与技术专业的学生,希望使用通义千文辅助作画
-
产品栏目:文本回答
-
问题:作画相应时间过长
-
评价和建议:响应速度太慢,严重影响生产效率,建议改善算法,提高响应速度。
2.2 bug描述
经过测试通义千问没有出现上述和文心一言一样的bug,一般在文本问答栏目可以理解的字符串,在画图时也能理解并作图(
虽然画出的图案可能牛头不对马嘴)
2.2.1 测试环境
Window10 ,Microsoft Edge版本123.0.2420.81 (正式版本) (64 位)
2.2.2 可复现性和具体步骤
- 可复现性:必然发生
- 步骤:在通义千问进行回答时点击页面刷新,便会出现空白回复的bug
2.2.3 具体情况描述
在系统进行回复时,点击了页面刷新按钮,就会出现一个空白的回复栏,但再次刷新后回答就会正常显示
2.2.4 Bug分析
- 可能成因:具体原因不太清楚,可能只有开发人员本身知道,但在回复记录创建成功后,只有刷新页面才会重新渲染一遍。
- 严重性:
量化标准
星级 | 描述 |
---|---|
★☆☆☆☆ | 微小细节错误或BUG,对软件功能影响不大,不会引起用户注意 |
★★☆☆☆ | 用户可能会注意到的明显错误,但不会严重影响体验 |
★★★☆☆ | 已经影响软件的功能或用户体验,但尚未对安全性和数据完整性造成威胁 |
★★★★☆ | 严重影响用户体验,可能导致系统故障、数据丢失或泄露 |
★★★★★ | 致命性系统故障,致命性安全性漏洞,用户体验严重影响 |
评价:★★☆ ☆ ☆ 该bug很容易被用户注意,但不会影响用户使用,对功能上也没有太大影响。
- 建议:通过优化算法和基础架构等技术,提高回复用户的响应速度,同时修复空白回复的bug。
2.3 结论
- 一般推荐
维度 | 描述 | 评分(满分10分) |
---|---|---|
用户界面 | 清晰、直观、易用 | 8 |
功能完整性 | 是否满足用户需求,功能是否齐全 | 6 |
性能 | 响应速度、加载时间、资源消耗等 | 3 |
可靠性 | 是否稳定,是否容易崩溃或出错 | 6 |
安全性 | 用户数据是否安全,是否容易受到攻击或泄露 | 8 |
支持与维护 | 提供的支持服务质量,更新频率,bug修复速度等 | 6 |
价格 | 价格是否合理,是否提供免费试用或开源版本 | 8 |
可定制性 | 是否提供定制化的选项,是否易于扩展与集成 | 3 |
兼容性 | 是否兼容不同操作系统、设备以及其他软件 | 7 |
创新性 | 是否具有创新的特性或功能 | 4 |
用户满意度 | 用户对软件的整体满意度评价 | 6 |
与文心一言一样,用作回答生活上的常识问题和做一些简单的问答是完全足够的。但回答质量参差不齐,给出不准确和相关性不高的回答的现象还是频繁存在,缺乏更深度的思考。
(二)分析
1 开发时间估计(单位/天)
AI软件 | 功能 | 设计 | 开发 | 测试优化 |
---|---|---|---|---|
文心一言 | 对话模块、百宝箱 | 20 | 300 | 100+ |
通义千问 | 文本问答、图片理解、文档解析 | 15 | 340 | 100+ |
我认为即使在有专业UI支持的情况下,想开发一个如此完整的大数据语言模型的网站也需要一年以上的时间,后续的测试和优化所需的时间更是没有上线,因为作为一个新兴技术,不断更新迭代跟上市场竞争的脚步是最为重要的。
2 类似软件对比
排名 | 软件 | 优势 | 劣势 |
---|---|---|---|
1 | Chat GPT | 算力更强,得到的内容更符合用户需求 | 对于中文输入理解有时存在偏差 |
2 | 文心一言 | 自然语言处理能力强,创作内容、写作方面更胜一筹 | 上下文关联能力弱 |
3 | 通义千问 | 功能丰富,上下文关联强 | 回复速度慢,回复内容不切问题 |
3 软件工程方面建议
现如今存在的几个大模型都或多或少的存在问题,软件工程团队的重点在于要持续改进, 定期审查项目,收集用户反馈意见,并根据实际情况进行调整和改进,以不断提高软件质量。
4 bug存在原因分析
- 文心一言:具体的设计质量不高
- 通义千问:测试把关不严,敷衍了事,没有注意在特殊的配置或环境下测试
(三)建议和规划
1 市场概况
1.1 市场规模
我国语言大模型市场正在迅速发展,预计今年市场规模将达到132.3亿元,增长率将达到110%。 这一趋势表明,语言大模型技术在我国的应用和发展前景广阔。目前,我国已有超过19个语言大模型研发厂商,其中15家厂商的模型产品已经通过备案。 这些厂商在语言大模型的研发和应用方面不断取得突破,推动了我国语言大模型市场的快速发展。 专家预测,到2027年,我国语言大模型市场规模有望达到600亿元。
1.2 用户
- 直接用户:AI开发者与研究者、数据科学家与分析师、技术型企业
- 潜在用户:普通用户(通过各类AI应用间接使用大模型,如智能助手、个性化推荐等。)、传统行业从业者(医疗、教育、金融等传统行业的从业者可能会发现大模型在提升工作效率、优化决策等方面的潜力)
2 市场现状
2.1 有哪些产品
市场上存在的大语言模型有Chat GPT、文心一言,通义千问、Google Bard、Azure OpenAI、DeepMind Sparrow等
2.2 上述产品的定位、优势、劣势
产品 | 定位 | 优势 | 劣势 |
---|---|---|---|
ChatGPT | 通用的对话式人工智能语言模型 | 拥有强大的语言生成能力- 能够进行多轮对话并处理各种话题- 广泛的应用场景,包括客户服务、教育辅助、娱乐等 | 对于特定领域的专业知识理解能力相对较弱 |
文心一言 | 中文智能写作助手 | 针对中文写作进行了优化,包括诗词创作、段落生成等功能- 具有与中文文学相关的特色,适合文学创作和语言学习 | 受限于中文文学语料库,对于其他语种和领域的写作支持可能有限 |
通义千问 | 语义理解与问答模型 | 具有较强的中文语义理解和问答能力- 适用于搜索引擎、智能助手等领域- 支持多种查询类型和问题形式 | 对于复杂多义词和文本语境的理解可能存在局限性,导致部分问题的回答不够准确 |
Google Bard | 语言生成模型 | 拥有强大的文本生成能力,能够创作富有情感和创意的文学作品、诗歌等- 支持多种语言和风格的文本生成 | 在生成文本的连贯性和逻辑性方面可能存在一定挑战,部分生成内容可能缺乏准确性和相关性 |
Azure OpenAI | 语言理解和生成服务 | 具有稳定可靠的性能和强大的技术支持- 提供丰富的API和开发工具,方便企业集成和定制 | 对于个性化需求和特定场景的定制能力可能有限,需要结合其他服务进行定制化开发 |
DeepMind Sparrow | 多模态对话系统,结合语言和视觉信息进行对话 | 结合了语言和视觉信息,具有更丰富的交互方式和表达能力- 适用于多媒体对话和智能助理等领域 | 在视觉信息处理方面可能存在一定的局限性,对于复杂场景和细节的理解可能不够准确 |
2.3 上述产品之间呈现什么样的关系,哪些为竞品关系?以及竞争中的各方态势如何?
这些大语言模型在市场上主要形成了竞争关系,它们都提供自然语言处理和生成能力,但在特性、性能、应用场景和定位上可能存在差异。目前在竞争中ChatGPT脱颖而出,由于其强大的语言生成能力和广泛的应用场景,ChatGPT拥有最庞大的用户基础,但由于其服务器搭建在国外,国内用户的使用比较困难。因而文心一言和通义千问等国产大语言模型在国内市场仍有较大的竞争力。
2.4 这个领域正处于 (萌芽 / 成长 / 风口 / 平台 / 下降)阶段?
目前大语言模型领域正处于风口阶段。在过去几年中,大型语言模型经历了快速发展和普及,各种公司和研究机构纷纷投入资源开发和部署各类自然语言处理系统。这种技术的广泛应用和商业化前景引起了广泛关注,预示着领域的快速发展和潜在的市场机会。随着大语言模型在各个行业的应用不断增加,技术创新和竞争也持续推动这一领域的蓬勃发展。
3 市场与产品生态
核心用户:AI开发者与研究者、数据科学家与分析师、技术型企业等
典型用户特征:
-
学历:各种学历层次的人群,从高中生到博士后研究人员。
-
年龄:覆盖年龄段广泛,从青少年到老年人。
-
专业:不同专业背景的人,如工程师、医生、教师、市场人员等。
-
爱好:对人工智能和技术感兴趣的用户。
-
收入:收入水平各异,因为大语言模型产品在教育、商业、科技等领域都有应用。
-
表面需求:获得高质量、快速的语言处理和自然语言理解服务。
-
潜在需求:希望通过大语言模型解决复杂问题、提高工作效率、生成创意内容等。
用户群体可能来自不同行业和背景,但它们之间可能存在交叉点和共同需求。例如,研究人员、作家和营销人员都可能需要大语言模型来生成文本或分析语言数据。这种共同的需求可能促使它们在使用产品时产生一定的交集。可以通过针对某些共同需求,设计出更有针对性的产品和服务,从而提升用户满意度和产品价值。
在产品的子产品及其他相关产品之间也存在一定的关系。大语言模型可以与自然语言处理工具、语音识别系统、机器翻译服务等相互配合,形成更加完整的解决方案。例如,结合语音识别和大语言模型可以实现语音转文字的功能,再结合机器翻译服务可以实现语言间的实时翻译。这种产品之间的相互关系可以构建更加强大的产品生态系统,提供更全面的解决方案,满足用户不同层次和方面的需求。
4 产品规划
我的预期是在文心一言的基础上开发一个多语种对话栏。
4.1 NABCD分析
- N(需求)
随着大型语言模型的快速发展和普及,作为百度的创新产品文言一心走向国际化也要提上日程。然而由于语言差异,许多国际友人在使用文心一言时面临着无法准确理解和回答非中文输入的问题。因此,文心一言迫切需要一个支持多语种输入的对话栏,以满足全球用户的不同需求。
- A(方法)
为了解决这一问题,可以结合当前成熟的机器翻译技术,将用户输入的外语内容实时翻译为中文,再与文心一言的自然语言处理算法相结合,从而实现对多语种输入的准确理解和回答。此外,还可以整合更多的语言模型和语料库,不断优化翻译质量和逻辑连贯性,确保外语回答的自然度和准确性。
- B(好处)
多语种对话栏的新增功能将带来诸多好处。首先,它消除了语言障碍,使得全球用户都能够轻松使用文心一言进行交流和获取信息。其次,多语种支持将吸引更多国际用户,进一步扩大产品的用户群体和市场份额。此外,通过提供多语种服务,文心一言还能够促进不同文化之间的交流和理解,推动全球范围内的文化多样性和融合。
- C(竞争力)
在竞争激烈的市场环境中,多语种对话栏将成为文心一言的重要竞争优势。与其他同类产品相比,文心一言能够更好地满足全球用户的需求,提供更广泛的语言支持。此外,我们还可以通过不断优化翻译质量和用户体验,进一步提升产品的竞争力,赢得更多用户的青睐。
- D(可持续性)
该功能具有广泛的应用前景和市场需求,推动多语种技术的创新和发展,可以为全球用户提供更加优质、高效的服务。
4.2 角色配置
-
开发人员(2人):负责软件核心功能的开发,以及对现有功能的改进和优化。开发人员将负责编写代码、实现功能,并与测试人员紧密合作,确保功能的正确性和稳定性。
-
测试人员(1人):负责编写测试用例,对开发完成的功能进行详细的测试,确保软件的质量和稳定性。测试人员还需要对软件的整体性能进行测试,并提供优化建议。
-
美工/UI设计师(1人):负责软件的界面设计和用户体验优化。根据产品需求和用户反馈,美工将设计出符合品牌形象和用户习惯的界面,并提供相关的设计素材。
-
项目经理(1人):负责项目的整体规划和协调,确保团队成员之间的有效沟通和协作。项目经理还需要监控项目的进度,及时解决项目中遇到的问题,确保项目能够按计划进行。
-
产品经理/需求分析师(1人):负责收集用户需求,进行市场调研,制定产品策略,并编写详细的需求文档。同时,产品经理还需要与开发团队紧密合作,确保开发的内容符合用户需求和市场预期。
4.3 项目规划
-
第1-2周:由产品经理负责收集用户反馈和市场需求,完成需求分析和产品设计,输出详细的需求文档和设计稿。同时,开发人员开始搭建项目框架和基础模块。
-
第3-8周:开发人员根据需求文档进行功能开发,测试人员同步编写测试用例。美工根据设计稿完成界面设计和素材制作。项目经理协调团队成员之间的工作,确保各项任务按时完成。
-
第9-12周:开发人员完成核心功能的开发,并提交给测试人员进行测试。测试人员发现的问题将反馈给开发人员修复。同时,产品经理和美工根据测试结果进行产品优化和界面调整。
-
第13-15周:开发人员修复所有已知问题,测试人员进行回归测试。项目经理组织团队成员进行项目总结,确保所有功能均满足需求。同时,开始准备发布所需的文档和资料。
-
第16周:发布软件的改进版本,并进行后续的用户反馈收集和问题解决工作。