这个作业属于哪个课程 | 福州大学-202302软件工程实践 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 调研、评测产品,并进行分析,给出建议和规划 |
其他参考文献 | 构建之法、现代软件工程 团队作业 - 软件分析和用户需求调查 |
目录
第一部分 调研,评测
(一) 文心一言
(1) 使用体验
1、介绍和使用软件
介绍:文心一言是由百度研发的人工智能大语言模型产品,它利用深度学习技术和大模型语料库进行训练,能够通过上一句话来预测生成下一句话。用户可以通过输入prompt(指令)与文心一言进行对话互动,提出问题或者要求。
软件使用:在对文心一言进行使用后,我认为它的主要功能包括文本回答、特定场景下的prompt生成、AI绘图、插件使用、用户问题预测。
文本回答:用户可以输入自己想问的问题,或者想要大模型帮忙完成的任务,尽量将要求描述地完整、详细,用户描述的越详细,模型回答的效果就越好。
特定场景下的prompt生成:文心一言的UI界面中包含有“百宝箱”功能,其中有许多的已经写好的prompt,用户可以直接使用这些prompt来要求大模型完成特定的任务。
AI绘图:用户可以通过prompt提示输入相应的绘图要求,AI会调用相应的API完成绘图功能。
插件使用:用户可以通过对话框中的插件,添加附加的功能,例如图片解析、文档解析等。
用户问题预测:在回答完用户的问题后,会根据用户提出的问题和自己回答的内容预测下一次用户可能的提问,并给出选项。
2、优缺点分析
使用过程:登录文心一言的账号,根据《使用指南》里提供的文心一言的使用方法,尽量详细而具体地描述自己的问题,发送给大模型,大模型就会分析问题,并基于自己的“知识”生成答案。
输入相应的prompt即可指挥AI进行工作。
用户还可以通过对话框中的插件,使用附加的功能。
优缺点:
- 数据量:模型使用了大量的数据集进行训练,拥有广泛的知识覆盖和泛化能力;但是当处理用户输入时,若用户输入内容过长时,会超过模型所能接收的最大prompt限制。
- 界面:界面设计简洁,符合年轻用户群体的审美,无广告;但对老年用户、特殊需求用户的支持不足。
- 功能:可以应用于多种场景,包括AI绘图、图片解析、文档解析、思维导图、百宝箱等功能,并且还提供了文心大模型4.0的功能,拥有堪比chatgpt4.0的精确度。并且在回答完用户的问题后,会根据用户提出的问题和自己回答的内容预测下一次用户可能的提问,并给出选项;但在特定专业领域的功能支持上与通义千问相比略显不足。
- 准确度:由于基于大规模训练数据,在多数通用场景下的文本生成准确度较高;受到模型本身局限的影响,包括可能出现内容的局限性、表达不够优美、甚至产生误导信息等问题。有时候回答用户的prompt时也会出现答非所问的情况。
3、用户对产品的改进意见
- 优化prompt处理机制:可以提供一个提示功能,提醒用户在输入过长时如何更有效地提问。
- 提高模型在各个领域的专业知识和最新信息的准确性,引入更全面、更新鲜的知识库。
- 用户自定义设置:提供界面自定义选项,让用户根据自己的喜好和需求调整界面布局、颜色、字体等,提高用户体验。
- 增加社区功能,能与文心一言的其它用户进行沟通和交流。分享自己的AI使用心得。
4、采访用户
采访对象:软件工程专业柯昊旸同学。
柯昊旸同学能够上手被测产品的基本功能。软件使用过程中没有遇到什么明显的困难,软件本身倒是有出现一些小问题。不过不影响大部分情况的使用。
选择原因:主要原因在于其专业背景与软件工程实践经历,能够从技术使用者和潜在开发者双重视角提供对文心一言的深入评估,同时他的需求可能包括利用AI工具辅助学习、研究及创新项目开发。
TA的需求:
- 代码辅助:解答编程问题、提供代码示例、讨论算法思路。
- 项目开发:协助进行产品需求分析、功能设计讨论等。
- 学术支持:在撰写论文、研究项目中快速获取相关知识以及文献概括总结。
实际使用的产品栏目:
人机对话、特定场景下的prompt生成、AI绘图、插件使用。
使用软件的过程中遇到的问题和亮点:
问题:
响应速度不如预期;支持输入的token长度太短;AI绘图质量比较低。
亮点:
用户界面直观简洁、拥有《使用指南》,便于快速上手;会预测用户接下来可能要问什么问题,直接点击相应选项即可。
需要改进的地方:
问答问题的响应速度;
增加支持输入的token的长度;
(2) BUG描述
2.1 Bug量化指标
Bug严重程度 | 解释说明 |
---|---|
★★★★★ | 致命性系统故障、致命性安全性漏洞、用户体验严重影响 |
★★★★ | 严重系统故障、服务器鉴权漏洞或重要数据泄露、用户体验较差 |
★★★ | 中度系统故障、非致命性安全漏洞、关键数据不准确或丢失、用户操作流程中断 |
★★ | 较轻系统故障、次要功能缺失或不稳定、轻微性能波动、一般性用户体验不佳(如响应延迟等) |
★ | 轻微系统故障、不影响主要功能的视觉瑕疵、轻微文案错误、建议性用户体验改进点 |
2.2 Bug发生时的测试环境
操作系统环境:Windows 10 家庭中文版
操作系统版本:19045.4291
浏览器:Microsoft Edge
浏览器版本:123.0.2420.81 (正式版本) (64 位)
2.3 Bug的可复现性及具体复现步骤
(1)画图显示与用户要求不符
可复现性:偶然发生(30次出现13次)
具体复现步骤:使用画图指令要求文心一言进行绘图。对于个别指令,绘图结果会出现严重偏差。
具体情况描述:在使用文心一言进行绘图的时候,发现对于某些指令要求的图片能够较好地绘制出来,但是对于其它一些绘图指令,绘图效果不佳。
(2)有关用户定量的要求难以完成
可复现性:偶然发生(20次出现14次)
具体复现步骤:使用指令要求文心一言生成特定字数的内容。例如“写一篇300字的自然风景描述”。
具体情况描述:在写文案时,难免借助大模型工具,有时候在使用文心一言进行特定字数的内容生成时,无法生成指定字数的内容。
2.4 Bug分析
(1)画图显示与用户要求不符
1.1 Bug可能成因
- 模型的训练依赖于大量的数据集,而这些数据集可能无法涵盖所有可能的场景和风格。
- 用户提供的描述不够具体或存在歧义时,模型可能无法准确捕捉用户的意图。
1.2 Bug严重性:★★
理由:次要功能不稳定、一般性用户体验不佳。
1.3 对于Bug的预期及改进建议
预期:用户输入绘图指令,对于一些有歧义的指令,大模型会先问清楚用户的要求再进行绘图。
改进建议:增加模型的训练数据,使其能够覆盖更广泛的场景和风格。引入更多的用户反馈机制,以便及时发现并纠正生成图像中的问题。
(2)有关用户定量的要求难以完成
2.1 Bug可能成因
- 模型对用户的指令要求并未理解充分,导致模型生成回答时,没有检测是否达到了用户指定的字数。
2.2 Bug严重性:★★
理由:次要功能不稳定、一般性用户体验不佳。
2.3 对于Bug的预期及改进建议
预期:用户要求生成指定字数的文本时,大模型会检测当前回答的字数是否达到了用户的要求,达到后即停止。
改进建议:增加模型的回答字数检测机制,当有字数限制的要求时,检测当前回答的字数是否达到了用户的要求。但有可能生成的内容不完整就戛然而止,因此还需要对模型的文本回答功能进行进一步的训练,使模型能够在限制条件内完成用户指定的任务。
(3) 结论
3.1 定性结论
结论:好,不错
3.2 定量结论
类别 | 描述 | 评分 (满分 10 分, 良好 6 分, 及格 4 分,聊胜于无 1 分, 很差 -3 分) |
---|---|---|
核心功能 | 核心功能的功能设计和质量 | 6 |
细节 | 为用户考虑的细节 | 6 |
用户体验 | 当用户完成功能时,不干扰用户 (例如: 是否不断弹出不相关广告)。 | 6 |
辅助功能 | 一些辅助功能如皮肤等 | 4 |
差异化功能 | 软件独特的功能对用户的吸引力 | 4 |
软件的效能 | 占用内存, 启动速度, 内存泄漏情况 | 4 |
软件的适应性 | 在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作. 和不同平台的软件能流畅协作 | 6 |
成长性 | 记住用户的选择, 适应用户的特点,用户越用越方便 | 6 |
用户有控制权 | 系统状态是否有反馈,等待时间是否合适。关键操作是否有确认提示,是否有明确的错误信息。 是否能让用户方便地从错误中恢复工作, 快捷操作键是否可调整。 | 6 |
用户支持与服务 | 官方提供的用户手册、帮助文档、在线客服、社区论坛等资源的丰富程度、易获取性以及问题解决效率 | 6 |
总分 | 优秀(75-100)、良好(55-74)、一般(30-54)、差(0-29) | 58 |
(二) 通义千问
(1) 使用体验
1、介绍和使用软件
介绍:通义千问是由阿里云推出的一个超大规模的语言模型,功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。它能够跟人类进行多轮的交互,也拥有续写小说,编写邮件等功能。
软件使用:在对通义千问进行使用后,我认为它的主要功能包括文本回答(包括文本创作、逻辑推理、知识问答、语言翻译等)、特定场景下的prompt生成、图片理解、文档解析。
文本回答:用户可以输入自己想问的问题,或者想要大模型帮忙完成的任务,尽量将要求描述地完整、详细,用户描述的越详细,模型回答的效果就越好。
特定场景下的prompt生成:通义千问的UI界面中包含有“百宝袋”功能,其中有许多的已经写好的prompt,用户可以直接使用这些prompt来要求大模型完成特定的任务。
图片理解:通义千问通过分析用户提供的图片来识别其中的对象、场景、文字内容,然后据此回答用户提出的与图片相关的问题或提供相应的描述。
文档解析:通义千问通过分析用户上传的文档的内容,然后据此回答用户提出的与文档内容相关的问题和要求。
2、优缺点分析
使用过程:登录通义千问的账号,根据《使用指南》里提供的文心一言的使用方法,尽量详细而具体地描述自己的问题,发送给大模型,大模型就会分析问题,并基于自己的“知识”生成答案。
- 数据量:通义千问模型使用了大量的数据集进行训练,拥有广泛的知识覆盖和泛化能力;但是当处理用户输入时,若用户输入内容过长时,会超过模型所能接收的最大prompt限制。
- 界面:界面设计简洁美观,无广告;但对老年用户、特殊需求用户的支持不足。
- 功能:可以应用于多种场景,包括图片解析、文档解析、文本回答、百宝袋等功能,对于AI绘画,代码生成等功能则在通义千问的官网专门提供了不同的通义千问产品应用,因此在AI绘画等特定方面比文心一言的功能要强大;但是文本回答方面有时候给出的回答会格式错乱,并且回答完问题后不具备预测用户下一次可能的提问的功能。
- 准确度:由于基于大规模训练数据,在多数通用场景下的文本生成准确度较高;受到模型本身局限的影响,包括可能出现内容的局限性、表达不够优美、甚至产生误导信息等问题。有时候回答用户的prompt时也会出现答非所问的情况。
3、用户对产品的改进意见
- 提供分段处理功能:对于特别长的输入内容,可以提供分段处理的功能,让用户能够分批次地输入问题或信息,以提高模型的响应效率。
- 用户自定义设置:提供界面自定义选项,让用户根据自己的喜好和需求调整界面布局、颜色、字体等,提高用户体验。
- 优化文本回答格式:针对文本回答格式错乱的问题,应该进行技术优化,确保每次回答都能以清晰、规范的格式呈现。
- 增加新手引导:可以效仿文心一言,增加通义千问自己的《使用指南》,帮助用户更加高效地使用通义千问。
4、采访用户
采访对象:软件工程专业洪恒辉同学。
洪恒辉同学能够上手被测产品的基本功能。软件使用过程中没有遇到什么明显的困难,软件本身倒是有出现一些小问题。不过不影响大部分情况的使用。
选择原因:主要原因在于其具备扎实的专业知识和实践经验,对于大模型也有一定的理解和知识储备,同时他的需求可能包括利用AI工具辅助编程及项目开发。
TA的需求:
- 高效开发支持:提升代码编写、调试、测试效率。
- 技术资讯与学习资源:获取最新的软件开发技术动态、最佳实践、教程资源等。
- 科研支持:在科研中能助力文献知识获取、文献翻译以及文献概括总结。
实际使用的产品栏目:
文本回答、图片理解、文档解析。
使用软件的过程中遇到的问题和亮点:
问题:
响应速度不如预期;支持输入的token长度太短;用户给出的输入中如果包含链接的话会去阅读链接中网页的相关内容,但是之后不管提问什么都会去阅读这个链接,造成没必要的时间浪费,而且会影响回答的内容。
亮点:
回答质量总体较高;用户给出的输入中如果包含链接的话会去阅读链接中网页的相关内容,并据此给出回答。
需要改进的地方:
问答问题的响应速度;
增加支持输入的token的长度;
修改重复阅读链接的问题
(2) BUG描述
2.1 Bug量化指标
Bug严重程度 | 解释说明 |
---|---|
★★★★★ | 致命性系统故障、致命性安全性漏洞、用户体验严重影响 |
★★★★ | 严重系统故障、服务器鉴权漏洞或重要数据泄露、用户体验较差 |
★★★ | 中度系统故障、非致命性安全漏洞、关键数据不准确或丢失、用户操作流程中断 |
★★ | 较轻系统故障、次要功能缺失或不稳定、轻微性能波动、一般性用户体验不佳(如响应延迟等) |
★ | 轻微系统故障、不影响主要功能的视觉瑕疵、轻微文案错误、建议性用户体验改进点 |
2.2 Bug发生时的测试环境
操作系统环境:Windows 10 家庭中文版
操作系统版本:19045.4291
浏览器:Microsoft Edge
浏览器版本:123.0.2420.81 (正式版本) (64 位)
2.3 Bug的可复现性及具体复现步骤
(1)搜索历史记录框中提示文字显示不全
可复现性:必然发生
具体复现步骤:登录通义千问账号,进入主页面,查看左上角
具体情况描述:在使用通义千问时,本想通过搜索框查找一下自己之前问过的某个问题,就发现搜索框的提示文字显示不全。
(2)代码格式显示错乱
可复现性:偶然发生(50次出现43次)
具体复现步骤:复制30行以上的python代码(含注释和空行)至输入框,发送给通义千问。
具体情况描述:在看不懂代码的时候,复制代码询问通义千问,就出现了代码格式错乱。
(3)文档重复读
可复现性:必然发生
具体复现步骤:在文本回答中复制CSDN的版权信息至输入框,发送给通义千问。
具体情况描述:在对CSDN上的内容有疑问时的时候,复制内容去询问通义千问,由于复制一大段内容的时候会将CSDN的版权信息也复制进去,并且自带链接地址,通义千问会自动去读取链接中的文档内容,这本是智能化的体现,但是在同一个对话中的后续提问通义千问都会去阅读这个文档,并且无法取消。
(4)画图显示与用户要求不符
可复现性:偶然发生(30次出现11次)
具体复现步骤:使用画图指令要求通义千问进行绘图。对于个别有歧义指令,绘图结果会出现严重偏差。
具体情况描述:在使用通义千问进行绘图的时候,发现对于某些指令要求的图片能够较好地绘制出来,但是对于其它一些绘图指令,绘图效果不佳。
2.4 Bug分析
(1)搜索历史记录框中提示文字显示不全
1.1 Bug可能成因
- css样式没有设置好。
1.2 Bug严重性:★
理由:提示文字显示不全为不影响主要功能的视觉瑕疵。
1.3 对于Bug的预期及改进建议
预期:用户在搜索历史记录时,所看到的提示文字应该是完整的。
改进建议:设置容器宽度,确保包含文字提示的容器有足够的宽度来显示完整的文字;设置字体大小和行高:确保字体大小适中,不会过大导致文字溢出容器。
(2)代码格式显示错乱
2.1 Bug可能成因
- 没有分别处理好python代码注释与markdown标题的识别。
- 混杂处理普通文本和markdown语法。
2.2 Bug严重性:★★
理由:次要功能不稳定、一般性用户体验不佳。
2.3 对于Bug的预期及改进建议
预期:用户在发送代码给通义千问时,要么按普通文本显示,要么按照markdown语法显示。不能混杂处理,需要指定一种呈现方式。
改进建议:设置特定的处理方式,遇到有可能产生歧义的地方需要指定一种处理方式,避免产生二义性。
(3)文档重复读
3.1 Bug可能成因
- 通义千问没有正确处理其上下文记忆机制,当复制了包含链接的内容时,通义千问可能将链接内容也作为上下文的一部分,并在后续的对话中继续参考它。
3.2 Bug严重性:★★
理由:次要功能不稳定、一般性用户体验不佳。
3.3 对于Bug的预期及改进建议
预期:用户在发送带有链接的内容给通义千问时,通义千问会去读取链接中的内容,后续对话也会自动参考链接中的内容,当用户说“不需要”参考链接中的内容时,通义千问将不会再去阅读链接内容。
改进建议:设置特定的处理方式,当发送带有链接的内容时,用户可以选择是否让模型参考链接中的内容,并且可以随时取消参考。
(4)画图显示与用户要求不符
4.1 Bug可能成因
- 模型的训练依赖于大量的数据集,而这些数据集可能无法涵盖所有可能的场景和风格。
- 用户提供的描述不够具体或存在歧义时,模型可能无法准确捕捉用户的意图。
4.2 Bug严重性:★★
理由:次要功能不稳定、一般性用户体验不佳。
4.3 对于Bug的预期及改进建议
预期:用户输入绘图指令,对于一些有歧义的指令,大模型会先问清楚用户的要求再进行绘图。
改进建议:增加模型的训练数据,使其能够覆盖更广泛的场景和风格。引入更多的用户反馈机制,以便及时发现并纠正生成图像中的问题。
(3) 结论
3.1 定性结论
结论:一般
3.2 定量结论
类别 | 描述 | 评分 (满分 10 分, 良好 6 分, 及格 4 分,聊胜于无 1 分, 很差 -3 分) |
---|---|---|
核心功能 | 核心功能的功能设计和质量 | 6 |
细节 | 为用户考虑的细节 | 5 |
用户体验 | 当用户完成功能时,不干扰用户 (例如: 是否不断弹出不相关广告)。 | 6 |
辅助功能 | 一些辅助功能如皮肤等 | 5 |
差异化功能 | 软件独特的功能对用户的吸引力 | 4 |
软件的效能 | 占用内存, 启动速度, 内存泄漏情况 | 4 |
软件的适应性 | 在联网/断网, 大小屏幕, 没有鼠标的情况下都可以顺畅操作. 和不同平台的软件能流畅协作 | 4 |
成长性 | 记住用户的选择, 适应用户的特点,用户越用越方便 | 6 |
用户有控制权 | 系统状态是否有反馈,等待时间是否合适。关键操作是否有确认提示,是否有明确的错误信息。 是否能让用户方便地从错误中恢复工作, 快捷操作键是否可调整。 | 5 |
用户支持与服务 | 官方提供的用户手册、帮助文档、在线客服、社区论坛等资源的丰富程度、易获取性以及问题解决效率 | 4 |
总分 | 优秀(75-100)、良好(55-74)、一般(30-54)、差(0-29) | 49 |
第二部分 分析
(一) 开发时间估计
产品名称 | 功能 | 预估时间 |
---|---|---|
文心一言 | 人机对话、百宝箱、插件使用(包括图片解析、文档解析等)、AI绘图、指令提示 | 14个月左右 |
通义千问 | 图片解析、文档解析、文本回答、百宝袋 | 13个月左右 |
(二) 同类产品对比排名
由于大模型产品大都非常相似,我通过查找网上资料,并结合大模型的特点,选择以下指标作为评价标准:理解能力、回答质量、界面设计、响应时间、交互体验、功能数量。
分数如下:
优秀 ★★★
良好 ★★
合格 ★
产品名称 | 理解能力 | 回答质量 | 界面设计 | 响应时间 | 交互体验 | 功能数量 |
---|---|---|---|---|---|---|
文心一言 | ★★ | ★★★ | ★★ | ★★ | ★★ | ★★★ |
通义千问 | ★★ | ★★ | ★★ | ★★ | ★★ | ★★ |
综上所述,文心一言(14★)>通义千问(12★)
(三) 软件工程方面的建议
产品名称 | 建议 |
---|---|
文心一言 | 增加社区功能,能与文心一言的其它用户进行沟通和交流,分享自己的AI使用心得;提供一个提示功能,提醒用户在输入过长时如何更有效地提问;增加网页端的社区功能,便于网页端用户的交流;提供界面自定义选项,让用户根据自己的喜好和需求调整界面布局、颜色、字体等,提高用户体验 |
通义千问 | 对于特别长的输入内容,可以提供分段处理的功能,让用户能够分批次地输入问题或信息,以提高模型的响应效率;针对文本回答格式错乱的问题,应该进行技术优化;提供“产品功能问题及改进建议”按钮,便于用户及时反馈产品的问题;增加插件功能,可以通过与不同插件的配合,使产品的性能得到进一步提升 |
(四) BUG存在的原因分析
产品名称 | BUG原因分析 |
---|---|
文心一言 | 具体的设计质量不高,AI绘图训练的数据集没有涵盖尽可能多的应用场景;具体的设计质量不高,模型没有准确理解用户定量方面的要求 |
通义千问 | 开发人员粗心大意,css样式没有设计好,导致“搜索历史记录”提示文字显示不全;测试把关不严,敷衍了事,没有注意在特殊的配置或环境下测试,导致文字格式显示错乱;测试把关不严,敷衍了事,没有注意在特殊的配置或环境下测试,导致文档重复读;具体的设计质量不高,AI绘图训练的数据集没有涵盖尽可能多的应用场景 |
第三部分 建议和规划
(一) 市场概况
通过查找网上资料,我了解到在2023年至2025年期间,我国人工智能与大数据产业市场规模增长率将保持在25%左右,到2025年市场规模预计将达到约260亿人民币。到2028年,我国人工智能与大数据产业规模将继续保持高速增长,预计到2030年市场规模将超过万亿人民币。
直接用户主要为学生、开发者和研究人员以及企业用户。
潜在用户为中老年人
,他们更偏好旅行、生活方面的提问。
(二) 市场现状
目前市场上面有的产品:
产品名称 | 定位 | 优势 | 劣势 |
---|---|---|---|
chatGPT | 通用语言处理工具,提供了文本回答、文本理解等功能 | 相应速度快,回答质量高 | 需要科学上网,其使用门槛比其它同类产品要高一截,并且4.0版本需要付费使用 |
Claude | 多模态语言处理模型,除了文本处理外,还能处理图像、视频等多模态数据。 | 上下文长度稳定为200K token,仅次于Gemini 1.5 | 产品新,市场认知度相对较低 |
Gemini (Bard) | 谷歌推出的对话式AI模型,注重在知识问答、逻辑推理等方面的能力。 | 拥有上下文10M token | 产品新,市场认知度相对较低 |
文心一言 | 百度研发的大语言模型,提供了深度的中文理解和生成功能。能够理解复杂的中文语境 | 在中国传统文化领域的语料训练上可以体现出一定优势,使用门槛较低,国内市场较大 | 和国外大模型相比能力还是稍逊一筹 |
ChatGLM | 基于Transformer架构的开源语言模型,具有良好的可扩展性和可定制性。 | 支持文字聊天,图片 | 产品新,市场认知度相对较低 |
通义千问 | 阿里巴巴推出的通用型语言模型,具备强大的语言理解和生成能力。 | 支持文字聊天,图片,文档解析,也能作为编写代码时的插件使用,使用门槛较低,国内市场较大 | 和国外大模型相比能力还是稍逊一筹 |
由于上述产品的功能方面重叠度都比较大,因此相互之间都属于竞品关系。
- ChatGPT:ChatGPT在全球范围内非常受欢迎。它在发布后的两个月内就吸引了1亿用户,并在2024年2月时达到了1.805亿用户。
- Claude:Claude的信息相对较少,我找到的信息显示Claude在2024年的流行度排名中位列第3142位。
- Gemini (Bard):Gemini在发布后的短短几个月内,就吸引了超过3000万的月活跃用户。
- 文心一言:文心一言是百度推出的大模型产品,由于使用门槛低,在国内市场受到了比较广泛的关注和使用。
- ChatGLM:ChatGLM是清华大学推出的开源双语聊天模型,在国内市场,它的下载量已经超过了200万。
- 通义千问:通义千问是阿里云推出的大模型产品,它的开源模型在全球范围内的下载量已经超过了300万。由于使用门槛低,在国内市场受到了比较广泛的关注和使用。
综上所述,文心一言、通义千问和ChatGLM由于使用门槛较低,在国内能够得到比较广泛的关注和使用,而ChatGPT等国外产品在全球范围内比较有竞争力。
随着ChatGPT3.5的爆火,大语言模型领域已经达到了前所未有的高潮阶段,每隔几个月就有一个规模更大、参数更多、功能更强的模型问世,现在的模型不仅能够处理文本,还能处理图像、音频、视频等数据,实现多感官的理解和生成,因此我认为这个领域现在正处于风口阶段。
(三) 市场与产品生态
3.1 核心用户
核心用户群:学生、互联网从业者、内容创作者、教育工作者、科技爱好者等。
典型用户 | 学历 | 年龄 | 专业 | 爱好 | 收入 | 表面需求 | 潜在需求 |
---|---|---|---|---|---|---|---|
互联网行业工作者 | 本科及以上 | 20-45岁 | 各个专业 | 编码、研发、生活爱好 | 6k~12k | 解决工作中遇到的技术问题与编程难题、提高工作效率 | 快速获取专业相关知识与最新技术动态,获得更好的发展机会 |
学生 | 本科及以上 | 18-28岁 | 各个专业 | 知识问答、编码、生活爱好 | 无 | 学术研究辅助、课程学习支持、技能学习、休闲娱乐 | 个人成长,自我提升,寻求更好的发展机会 |
3.2 用户群体之间的关系与生态构建可能性
3.2.1 用户群体之间的关系
这些大语言模型产品的用户群体存在一定的重叠,特别是在科技爱好者、教育工作者、学生、互联网从业者等群体中。他们可能同时使用多个模型来满足不同场景的需求,比如ChatGPT用于日常对话与问题解答,文心一言用于中文环境下的信息查询,ChatGLM用于双语交流等。此外,由于部分用户对AI技术有深入理解与实践,他们可能在开发者社区、社交媒体上分享经验、对比模型优劣,形成互动交流的用户社群。
3.2.2 特定用户生态构建可能性
我认为是有利用其相互作用二次构成特定用户生态的可能性的。因为这些大语言模型产品的用户群体存在一定的重叠,有些用户可能一开始只使用一款产品,后来经过与其他用户的交流,发现可以同时使用多个模型来满足不同场景的需求,用户之间就可能在开发者社区、社交媒体上分享经验,构成互动交流的用户社群。
3.3 产品关系与生态构建
3.3.1 子产品与相关产品关系
各公司可能会围绕主模型开发一系列子产品或相关工具,这些产品可以满足不同用户群体的细分需求,形成产品线的多样性。例如阿里云推出的大模型产品通义千问,现在已经拥有了一系列相关的产品,如通义灵码等。
3.3.2 构建产品生态可能性
我认为是有利用各个产品特性之间的相互关系二次构成产品生态的可能性的。各公司可以寻找第三方开发者与合作伙伴,鼓励第三方开发者基于模型接口开发各类应用,吸引合作伙伴将模型集成到他们的产品中,可以极大地拓宽模型的应用场景和用户覆盖面。
(四) 产品规划
4.1 新功能描述
我选择对文心一言进行产品规划,考虑到当前软件已经拥有了支持图像输入功能,因此我计划在当前软件的基础上设计一个新功能:语音对话与可视化知识呈现。语音对话加上原本的图像功能可以提供更加丰富的用户交互体验。可帮助文心一言成为国内少数支持语音、图像多模态交互的智能问答平台。该功能包括:
- 语音对话:用户可以通过语音与文心一言进行对话,系统能够准确识别用户的语音提问,并以语音形式回应,提供流畅的语音交互体验。
- 可视化知识图谱:针对复杂的概念、体系或关系型问题,文心一言能够生成可视化知识图谱,直观展示各要素之间的关联,便于用户快速理解和消化复杂信息。
NABCD分析:
N(Need,需求):
随着用户对信息获取方式多样性和交互便捷性的需求提升,单一的文字交互模式已无法满足所有情境下的高效沟通。语音对话与可视化知识呈现功能旨在适应用户多元化的信息需求,提供更丰富、直观和个性化的交互体验。
A(Approach,做法):
- 集成语音对话技术:对接成熟语音服务API,实现语音输入识别与输出合成,确保语音交互的准确率和自然度。
- 知识图谱构建与渲染技术:利用知识图谱生成算法,根据问题内容动态构建知识图谱,并设计美观简洁的图形界面进行展示。
B(Benefit,好处):
- 拓宽用户群体:多模态交互降低了文字阅读和输入门槛,吸引更广泛用户群体,尤其是视觉和听觉偏好用户、有特殊需求的中老年人群体等。
- 提升信息理解效率:可视化知识呈现有助于用户快速理解复杂概念、结构和关系,增强记忆效果。
C(Competitors,竞争):
-
领先的多模态交互:文心一言将成为少数支持语音、图像多模态交互的智能问答平台,显著区别于传统文本问答产品。
-
创新知识可视化:通过知识图谱技术,文心一言能以更具吸引力和教育价值的方式呈现数据。
D(Delivery,推广):
- 与教育机构、培训平台合作:在教育、培训场景中推广多模态交互与可视化知识功能,作为提升教学质量和学习体验的工具。
- 社交媒体与内容营销:制作演示视频、案例故事等内容,通过社交媒体、行业论坛等渠道展示新功能亮点,吸引用户关注与试用。
- 寻找推广合作伙伴:邀请科技博主、行业专家试用并分享体验,借助其影响力扩大新功能的影响力。
4.2 团队配置
- 产品经理(1人):负责整体产品规划和项目进度监控。
- 后端开发工程师(1人):负责后端相应服务的开发。
- AI算法工程师(1人):负责知识图谱生成算法实现、语音识别API接口集成。
- 前端开发工程师(1人):负责用户界面设计与实现。
- 测试工程师(1人):负责对软件进行测试。
- UI设计师(1人):负责界面UI设计,确保用户友好性和操作流畅性。
4.3 详细规划
周期 | 阶段 | 工作内容 |
---|---|---|
第1-2周 | 需求与设计 | 细化功能需求;利用原型设计展示界面;评估并初步选定语音服务API供应商 |
第3-4周 | 技术集成 | 集成语音识别与合成功能;开发语音输入前端模块;完善知识图谱展示设计 |
第5-6周 | 知识图谱功能开发 | 实现动态知识图谱生成算法;设计与实现知识图谱数据接收与渲染 |
第7-8周 | 功能整合与初步测试 | 完成语音与知识图谱功能后端开发;整合语音输入与知识图谱前端界面;进行初步功能测试 |
第9-10周 | 优化与兼容性测试 | 优化语音与知识图谱性能与准确性;提升跨设备用户体验;进行兼容性测试 |
第11-12周 | 系统集成 | 将新功能融入通义千问系统 |
第13-14周 | 内部测试与问题修复 | 组织内部测试并修复存在的问题 |
第15周 | 用户测试与体验优化 | 邀请外部用户参与测试,收集反馈;依据反馈优化用户体验 |
第16周 | 发布 | 撰写发布说明;完成最终版本部署,进行系统检查 |