这个作业属于哪个课程 | 2302软件工程 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 产品调研评测、分析、建议与规划 |
其他参考文献 | 《构建之法》,《GPT、Llama等大模型存在「逆转诅咒」,这个bug该如何缓解?》 |
1. 第一部分:调研与评测
1.1 文心一言
1.1.1 使用体验
1.1.1.1 介绍和使用软件
- 软件功能的介绍
-
基础功能
- 语言处理:能够理解和生成自然语言文本,实现流畅的人机对话。
- 知识问答:能够回答各种学科专业知识、百科知识以及生活常识问题。
-
- 数学计算:支持基本的数学运算和逻辑推理。
-
-
特色功能
- 图形界面:文心一言提供丰富的图形界面,可以供用户轻松找到想要使用的功能。
- 预设模板:提供丰富的基础模板,帮助用户快速上手。
- 新建对话:用户可以随时开启新的话题或聊天。
- 搜索历史记录:快速查找和回顾历史对话内容。
- 同步历史记录:网页与APP端历史对话记录同步,实现无缝切换。
-
-
附加功能
- 文本创作:如快写功能,根据用户需求快速生成文章内容。
- 多语言:可以处理中文和英文
-
-
- 文档处理:支持用户输入文档,解读文档内容。
-
-
- ai绘图:根据需求绘制图片。
-
-
1.1.1.2 优缺点分析
-
描述使用产品的整体过程和体验
使用文心一言的整体体验可以概括为直观且流畅。
用户可以轻松地通过简洁的向导式界面完成初步设置。
产品提供了丰富的帮助文档和教程,有助于新用户快速上手。
在日常使用中,用户可以通过直观的界面快速访问各项功能,进行文本编辑、数据分析或其他专业任务。 -
评估产品在解决用户问题方面的能力
文心一言在解决用户问题方面表现出色,无论是日常的文字处理还是专业的数据分析,其智能算法能够理解用户的需求,提供相应的解决方案,如自动完成、智能排版等。
此外,对于特定行业的问题,文心一言也能通过其模板库和插件系统提供定制化的解决方案,极大地提高了问题解决的效率和质量。 -
优点
- 数据量
- 文心一言能够有效地处理大规模数据集,提供强大的数据分析和挖掘能力,帮助用户从大量信息中提炼出有价值的见解。
- 界面
- 文心一言使用时的初级界面设计直观且用户友好,提高了易用性。
- 功能
- 提供了丰富的功能集,包括文本编辑、数据分析等,满足不同用户的多样化需求,并通过插件系统提供进一步的扩展性。
- 准确度
- 正常情况下,文心一言在自然语言处理任务中表现出较好的准确度。
- 自定义功能
- 用户可以根据自己的需求定制工作流程和界面布局,使得软件更加贴合个人或团队的工作方式。
- 社区支持
- 拥有活跃的在线社区,为用户提供交流平台和及时的技术支持,增强了用户之间的互动和互助。
- 数据量
-
缺点
- 数据量
- 在处理大数据量时,可能会对计算资源有较高要求,导致在资源较低的设备上运行缓慢或出现性能问题。
- 界面
- 在高级功能的界面,文心一言可能对初学者来说不够直观,不太好学。
- 功能
- 使用文心一言时候,有的时候会出现文不对题,无法记忆上下文的情况。
- 准确度
- 在处理复杂的语境、双关语或专业术语时,可能会出现误解或不准确的输出,需要用户进行校对调整。
- 语言支持不多
- 仅支持中英文
- 依赖网络连接
- 文心一言的功能依赖于网络连接,网络不稳定或断开会影响使用体验。
- 客户服务响应
- 文心一言有时候会出现服务器爆满的情况,无法快速响应用户请求。(当前提问人数过多)
- 网址访问
- 文心一言无法访问外部网址。
- 数据量
-
探讨用户体验方面的潜在问题及其原因
用户体验的潜在问题可能包括:- 学习曲线:对于新用户或不经常使用类似软件的用户,文心一言的丰富功能可能需要一定时间来适应和学习。
- 性能要求:在处理大量数据或执行资源密集型任务时,文心一言可能对用户的硬件设备有较高要求,可能导致性能问题。
- 用户支持:尽管有在线社区和帮助文档,但用户可能在遇到具体问题时仍需要更及时和专业的用户支持。
- 语言模型训练:尽管文心一言的语言模型很智能,但还是会有出现对用户输入理解错误的情况。
1.1.1.3 用户对产品的改进意见
- **多语言和本地化支持**:对于非中文用户,提供准确的多语言支持和本地化服务是提升用户体验的关键。改进措施包括扩展语言支持范围、优化翻译质量,以及考虑文化差异对对话的影响。
- **性能稳定性**:用户可能会遇到系统响应缓慢或服务中断的情况。针对这一点,产品团队可以优化算法效率、增强服务器的处理能力,以及设计更加稳健的错误恢复机制。
1.1.2 BUG描述
- BUG量化标准
严重程度 | 说明 |
---|---|
★ | 轻微影响 - 这类BUG通常不易被察觉,可能包括小的界面瑕疵或轻微的性能延迟。它们通常不影响核心功能,用户可能不会意识到其存在。 |
★★ | 局部功能受阻 - BUG会导致某些功能部分失效或效率降低,但用户可以通过替代方法或稍作等待来继续使用软件。这类问题需要关注,但不会立即影响整体体验。 |
★★★ | 数据错误或误导信息 - 这类BUG可能导致数据处理错误或生成误导性信息,大语言模型中,对用户决策可能产生负面影响。需要优先解决,以避免潜在的严重后果。 |
★★★★ | 功能失效 - 此时BUG会导致关键功能完全无法使用,严重影响用户体验。用户可能需要使用替代方法、或者重新进入页面,或者刷新等待问题解决才能继续任务。 |
★★★★★ | 系统级故障 - 这是最严重的BUG级别,可能导致整个大模型系统崩溃或无法提供服务。这类问题需要立即解决,以恢复软件的正常运行和用户的信任。 |
1.1.2.1 Bug发生时的测试环境
-
操作系统与版本
windows10 家庭中文版 22H2 -
浏览器与版本
Microsoft Edge
版本 123.0.2420.97 (正式版本) (64 位) -
发生时间段及前因后果
- bug1:截止2024/04/16 11:00前,输入两个文档,遗忘前面输入的文档
- bug2: 截止2024/04/16 11:00前,输入文本“白云千载空悠悠的下一句是什么?”或者输入“昔人已乘黄鹤去的上一句是什么?”
- bug3:截止2024/04/16 11:00前,输入自然语言,无法有效理解(包括上下文联想,语义理解功能)
1.1.2.2 Bug的可复现性及复现步骤
- bug1:文档记忆功能失效
- 满足特定条件下可复现:
输入两个文档进入文心一言 - 复现步骤流程或流程图
新建会话->输入word文档1号->提出对word文档1的问题->输入word文档2号->提出对word文档1的问题->遗忘
- 满足特定条件下可复现:
- bug2:古诗词词句顺序错误
- 满足特定条件下可复现:
新建会话->输入“白云千载空悠悠的下一句是什么?”
- 满足特定条件下可复现:
- bug3:自然语言理解失效
- 满足特定条件下可复现:
- 提出要求,并接着按照该要求,对某段复杂指令(文字或者图片)进行处理
- 复现步骤流程或流程图
输入处理要求1->输入长文字,并要求处理
输入处理要求1->要求绘制图片
1.1.2.3 Bug具体情况描述
-
bug1: 记忆功能失效
-
如图所示,文心一言并不能记忆之前输入的文档内容。
具体描述:
有可能是因为文心一言并没有制作多文档处理功能,但是却宣称有着多文档记忆的功能,因此算作一个自相矛盾的bug
-
-
bug2: 古诗词词句顺序错误
-
-
再次复现
具体描述:
输入某些特定的古诗词,导致文心一言不能正确的输出古诗词的短句安排顺序,比如此时无法正确输出白云千载空悠悠的下一句诗
-
-
bug3: 自然语言理解失效
-
忽略了要求,而只顾着讲解识别到的关键词
无法理解我想要获得一副ai图片的需求
ai绘图部分也无法有效理解用户需求
具体描述:
当输入文本过多时,无法正确找到并理解用户输入的具体要求,或者无法对用户的要求进行处理
-
1.1.2.4 Bug分析
-
bug1: 文档记忆功能失效
- 严重程度:★★★★
- 可能成因分析:
文心一言在设计数据存储时,没有提供一个保存多个文档的缓存或者数据库,因此当提到上一个文档的内容时,文心一言无法处理,只能给出通用的回答。 - 预期及改进建议:
- 采取技术改进,使得文心一言能够保存上下文关系,在数据库中记录输入的文档等
- 在需要使用的时候,调用输入的文档,不过这会牺牲流畅度
- 本质上是要优化文心一言对于上下文的存储和理解功能
-
bug2: 古诗词词句顺序错误
- 严重程度:★★★
- 可能成因分析:
语言模型带有的逆转诅咒(Reversal Curse),可能是因为模型训练的训练目标错误,导致准确度产生错误 - 预期及改进建议:
- 优化语言模型训练方式,减少错误的训练目标,提高准确率
-
bug3: 自然语言理解失效
- 严重程度:★★★★
- 可能成因分析:
没有按照文心一言语言模型中的指令提示词来进行提问,就有可能无法处理信息
比如,使用一些动作的同义词,如果没有在语言模型内,就不太可能按用户的想法进行输出
或者是文心一言的模型还没有很好训练上下文处理,针对自然语言中的上下文处理部分,很难进行关联处理
对于忽略了用户需求问答的部分,可能是用户没有给出明显的提示词,或者没有给出便于语言模型识别的指令结构,导致输出文不对题 - 预期及改进建议:
- 提供更多提示词选择,指引用户使用规定的提示词输入
- 优化自然语言上下文训练模式,使得语言模型能够更好处理上下文关系,而不至于在复杂的指令中丢失用户的要求
- 扩大训练范围,包括对复杂指令的处理,而不至于无法处理用户的“bad input”
1.1.3 结论
- 文心一言的最终评价
d) 好,不错
类别 | 描述 | 评分(满分10分) |
---|---|---|
功能 | 核心功能的实现情况,功能设计和质量的评估。 | 8 |
细节 | 为用户考虑的细节,如易用性、便捷性等。 | 8 |
用户体验 | 用户在使用软件时的体验,包括界面友好度、操作流畅性等。 | 8 |
辅助功能 | 提供给用户的额外功能,如皮肤、主题等。(是否付费?) | 6 |
差异化功能 | 软件独特的功能,及其对用户的吸引力。 | 6 |
软件的效能 | 软件的性能表现,如占用内存、生成速度、内存泄漏情况等。 | 6 |
软件的适应性 | 软件在不同环境下(断网/联网)的适应性和兼容性。 | 7 |
成长性 | 软件是否能够根据用户的使用习惯进行优化。 | 10 |
用户有控制权 | 用户对软件操作的控制程度,如反馈机制、错误处理等。 | 8 |
外部输入 | 软件对于外部输入的图片/文档/网络链接的支持度 | 5 |
1.2 kimi
1.2.1 使用体验
1.2.1.1 介绍和使用软件
-
软件功能的介绍
-
基本功能
-
文本理解与回答: 能够理解用户的问题并提供相应的答案。
-
多语言对话: 支持中文和英文等多种语言的对话。
-
-
-
信息检索: 通过搜索功能帮助用户找到网络上的信息。
-
-
文件阅读: 读取用户上传的多个文件并解读回答,一次性能上传多个文件。
-
-
-
-
网页内容解析: 解析用户提供的网址内容以回答问题。
-
-
-
特色功能
- Markdown格式支持: 提供Markdown格式的文档和表格制作。
- 用户指令遵循: 尽可能遵循用户的指令,提供满足用户需求的回答。
- 链接解析与回答: 解析用户提供的链接内容,并结合内容回答问题。
-
附加功能
- 用户交互优化: 根据用户反馈优化交互体验。
- 技术支持: 提供技术支持和帮助文档,帮助用户更好地使用Kimi智能助手。
-
1.2.1.2 优缺点分析
-
描述使用产品的整体过程和体验
使用Kimi智能助手的整体体验是高效的。
用户可以通过简单、简洁直观的交互方式(输入输出)快速获得所需的信息和帮助。
Kimi智能助手提供了实时的问题解答和任务(输入)处理能力,联网搜索能力,使得用户在日常工作和生活中能够更加便捷地获取支持。 -
评估产品在解决用户问题方面的能力
Kimi智能助手在解决用户问题方面表现出色,特别是在提供信息检索、文件解析、速读和语言理解方面。无论是简单的查询还是复杂的数据分析,Kimi智能助手都能迅速理解用户的需求,并提供准确的答案和解决方案。 -
优点
- 数据量
- Kimi智能助手能够处理大量的输入数据,支持最多20万字的输入和输出,满足用户在处理大量文本信息时的需求。
- 界面
- 虽然Kimi智能助手没有可视化界面,但其交互设计简洁明了,用户可以通过简单的文本输入与助手进行交流。
- 功能
- Kimi智能助手具备广泛的功能,包括但不限于信息检索、文件解析、语言翻译和问题解答,能够满足用户多样化的需求。
- 准确度
- Kimi智能助手在理解和处理自然语言方面表现出较高的准确度,能够有效地回应用户的问题。
- 语言支持
- Kimi智能助手主要支持中英文对话,对于其他语言的支持虽然不够完善,但也能进行部分回答。
- 多文档分析
- Kimi能同时分析多个文档,不会遗忘,并给出分析结果和归纳总结。
- 量子速读
- Kimi智能助手支持快速读取理解文档内容,有效响应用户的要求。
- 数据量
-
缺点
- 上下文理解
- Kimi智能助手在处理复杂或含糊的上下文时可能遇到挑战,有时可能无法完全理解用户的意图。
- 实时性要求
- 在需要实时反馈的场景中,Kimi智能助手可能需要进一步优化以提供更快的服务。
- 用户习惯
- 对于习惯使用图形界面的用户,可能需要一段时间来适应Kimi智能助手的文本交互方式。
- 功能限制
- 尽管Kimi智能助手提供了多种功能,但可能无法覆盖用户的所有需求,特别是在某些特定领域的深度应用上。
- 网络依赖
- Kimi智能助手的功能依赖于网络连接,网络不稳定或断开可能会影响使用体验。
- 用户支持
- 用户在遇到具体问题时可能需要更及时和专业的用户支持,当前的自动回复系统可能无法完全满足这一需求。
- 上下文理解
1.2.1.3 用户对产品的改进意见
- 扩展功能和服务范围:
- 定期更新和增加新功能模块,如集成更多第三方服务。
- 探索多模态交互能力,如语音识别和图像理解。
- 提升交互体验:
- 优化对话管理系统,提高对用户意图和上下文的理解准确性。
- 增加个性化选项,允许用户根据喜好调整交互方式和界面风格。
1.2.2 BUG描述
- BUG量化标准
严重程度 | 说明 |
---|---|
★ | 轻微影响 - 这类BUG通常不易被察觉,可能包括小的界面瑕疵或轻微的性能延迟。它们通常不影响核心功能,用户可能不会意识到其存在。 |
★★ | 局部功能受阻 - BUG会导致某些功能部分失效或效率降低,但用户可以通过替代方法或稍作等待来继续使用软件。这类问题需要关注,但不会立即影响整体体验。 |
★★★ | 数据错误或误导信息 - 这类BUG可能导致数据处理错误或生成误导性信息,大语言模型中,对用户决策可能产生负面影响。需要优先解决,以避免潜在的严重后果。 |
★★★★ | 功能失效 - 此时BUG会导致关键功能完全无法使用,严重影响用户体验。用户可能需要使用替代方法、或者重新进入页面,或者刷新等待问题解决才能继续任务。 |
★★★★★ | 系统级故障 - 这是最严重的BUG级别,可能导致整个大模型系统崩溃或无法提供服务。这类问题需要立即解决,以恢复软件的正常运行和用户的信任。 |
1.2.2.1 Bug发生时的测试环境
-
操作系统与版本
windows10 家庭中文版 22H2 -
浏览器与版本
Microsoft Edge
版本 123.0.2420.97 (正式版本) (64 位) -
发生时间段及前因后果
- bug1:截止2024/04/16 17:00前,输入文本“白云千载空悠悠的下一句是什么?”或者输入“昔人已乘黄鹤去的上一句是什么?”
- bug2:截止2024/04/16 18:00前,要求kimi输出限定字数的文本内容
1.2.2.2 Bug的可复现性及复现步骤
-
bug1:古诗词锁定错误
- 满足特定条件下可复现:
新建会话->输入“白云千载空悠悠的下一句是什么?”
新建会话->输入特定古诗词,并询问下一句是什么
- 满足特定条件下可复现:
-
bug2:无法满足规定字数限制
- 满足特定条件下可复现:(有时能够满足规定字数要求)
新建会话->请求kimi输出限定字数的文本
- 满足特定条件下可复现:(有时能够满足规定字数要求)
1.2.2.3 Bug具体情况描述
- bug1: 古诗词锁定错误,胡乱编造
-
完全错误!胡说八道!
一本正经的胡说八道
有的内容可以,但是问到深处又错了
具体描述:
对于输入的特定古诗词句,无法正确锁定到对应的古诗词(标题、作者、朝代、诗词本身、诗词曲类型),反而会自己编造一些看似正确但其实非常离谱的答案,如:千树万树梨花开的下一句,故人西辞黄鹤楼诗歌本身的作者和标题等
-
- bug2: 无法按照规定字数输出
-
心很累。。。
具体描述:
要求kimi输出规定字数的散文或者其他类型的文本时候,不能按照要求输出
-
1.2.2.4 Bug分析
-
bug1: 古诗词锁定错误,胡乱编造
- 严重程度:★★★★
- 可能成因分析:
训练数据不足或偏差:如果模型在训练过程中接触到的古诗词数据量不足,或者数据集中某些特定的古诗词风格、时期或作者的作品较少,模型可能无法准确学习到这些诗词的特点,导致生成错误的诗句。
生成算法的局限性:基于概率的语言模型可能在生成过程中选择了概率较高但与上下文不匹配的词汇或句子,尤其是在古诗词这种规律性和韵律性较强的文本中,模型可能难以捕捉到正确的生成规则。 - 预期及改进建议:
- 扩大和多样化训练数据集,确保包含足够多的古诗词样本。
- 对模型进行微调,专门针对古诗词生成任务进行优化。
-
bug2: 无法按照规定字数输出
- 严重程度:★★
- 可能成因分析:
模型设计限制:有些语言模型可能具有对输入或输出长度的限制。如果模型是针对长文本设计的,它可能在生成短文本时遇到困难。
指令遵循训练:可能Kimi没有充分学习如何遵循用户指定的指示或指令来生成特定长度的文本。
优化目标差异:可能Kimi根据一定的优化目标进行训练,如预测下一个词的准确性。如果这些目标与生成特定长度的文本不完全一致,Kimi可能不会优先考虑长度要求。 - 预期及改进建议:
- 提高指令遵循能力:通过提示工程(prompt engineering),为用户提供明确的指令和格式示例,从而指导模型按照给定的字数要求生成文本。
- 对模型进行微调:使用包含具体字数要求的定制数据集,使模型学会根据这些要求生成文本。
- 优化模型目标:考虑将长度作为生成模型的一个额外目标,通过多任务学习让Kimi同时预测文本质量以及长度。
1.2.3 结论
- Kimi的最终评价
e) 非常推荐
类别 | 描述 | 评分(满分10分) |
---|---|---|
功能 | 核心功能的实现情况,功能设计和质量的评估。 | 9 |
细节 | 为用户考虑的细节,如易用性、便捷性等。 | 7 |
用户体验 | 用户在使用软件时的体验,包括界面友好度、操作流畅性等。 | 6 |
辅助功能 | 提供给用户的额外功能,如皮肤、主题等。(是否付费?) | 9 |
差异化功能 | 软件独特的功能,及其对用户的吸引力。 | 9 |
软件的效能 | 软件的性能表现,如占用内存、生成速度、内存泄漏情况等。 | 8 |
软件的适应性 | 软件在不同环境下(断网/联网)的适应性和兼容性。 | 9 |
成长性 | 软件是否能够根据用户的使用习惯进行优化。 | 7 |
用户有控制权 | 用户对软件操作的控制程度,如反馈机制、错误处理等。 | 8 |
外部输入 | 软件对于外部输入的图片/文档/网络链接的支持度 | 10 |
1.3 采访用户
- 采访另一个用户:
- 采访对象的背景介绍和选择理由:
- 采访对象为计算机专业学生,会使用到大语言模型进行辅助开发,辅助文本编辑等;
- 采访对象的使用场景和需求分析:
- 使用文心一言或者Kimi进行文本生成或者编辑;
- 记录采访对象在使用产品过程中遇到的问题和亮点
- 采访对象对用户体验改进的建议和反馈
- 采访对象的背景介绍和选择理由:
特性/问题 | 文心一言 | Kimi |
---|---|---|
问题 | 网页版全屏切换到小窗时会卡顿,可能丢失对话。上传文件时也会卡顿,甚至失败,一次只能上传一个文件。 | 无法进行语音输入,有时会遇到卡顿和发送失败的问题。 |
亮点 | 可以设置语音助手的性格,录制音频创建数字分身,适合喜欢与AI聊天娱乐的用户。页面提示到位,功能丰富,适用场景多,上手快。 | 页面设计简洁,适合快速上手。支持上传多个附件,有助于资料总结和分析。据说能处理超长文本,但未经测试。 |
改进建议 | 希望网页版在切换窗口大小时能更加流畅。 | 优化服务器稳定性,改善响应速度。增加功能指引,帮助用户更好地了解和使用产品。 |
2. 第二部分:分析
2.1 开发时间估计
开发环节 | 时间估计 | 环节说明 |
---|---|---|
项目启动与规划 | 30天 | 深入分析项目需求,制定详细规划和设计蓝图 |
用户界面设计与开发 | 60天 | 完成UI/UX设计,并开发前端界面和用户交互功能。 |
后端与API开发 | 90天 | 构建后端架构,开发API接口,并集成核心功能 |
智能语言模型开发训练 | 120天 | 开发和训练智能对话系统,包括NLP和机器学习模块 |
数据工程与分析 | 75天 | 处理和分析大量数据,以支持智能对话和决策 |
系统测试、调试与优化 | 60天 | 进行全面的系统测试,调试和性能优化 |
用户文档与支持体系构建 | 30天 | 编写详尽的用户文档和构建用户支持服务体系 |
项目管理与里程碑控制 | 20天 | 确保项目按照计划推进,控制关键里程碑 |
系统维护 | 长期 | 发布后,需持续监控性能并根据用户反馈进行优化 |
总计 | 485天 |
- 预估依据:
- 在开发大模型语言处理软件的过程中,关键在于后端api开发,语言模型的训练和数据工程。
- 开发团队如果采用现成的高级语言模型服务,例如OpenAI的GPT4,3.5API,或者Gopher等,都能够减少自主研发,从而节约时间。不用从零开始构建模型,同时还可以利用业内经过验证的技术解决方案。
- 考虑到软件开发中可能出现的各种挑战和延误,为每个阶段留出多余时间,开发团队可以更加灵活地应对变化,同时也能够确保有足够的时间进行质量保证和用户反馈的整合。这样的安排有助于减少项目压力,提高最终的产品质量。
2.2 同类产品对比排名
在评判同类语言模型软件产品时,通常考虑以下几个关键标准:
- 语言理解能力:模型对自然语言的理解程度,包括语法分析、语义理解等。
- 内容生成能力:模型生成文本的流畅性、多样性和创造性。
- 知识问答能力:模型回答各种问题,包括常识、专业知识等的能力。
- 多模态交互能力:模型处理文本、图像、语音等多种输入的能力。
- 逻辑推理能力:模型进行逻辑推理、解决问题的能力。
- 技术创新性:模型在技术上的创新点和突破。
- 应用场景广泛性:模型可应用的行业和场景的广泛性。
- 用户反馈与市场接受度:用户对模型的反馈和市场接受情况。
满分80换算为100分
评判标准 | ChatGPT (分) | 通义千问 (分) | 文心一言 (分) | 讯飞星火 (分) | Kimi (分) |
---|---|---|---|---|---|
语言理解能力 | 9.5 | 8.5 | 9.0 | 8.5 | 9.0 |
内容生成能力 | 9.5 | 8.5 | 9.0 | 8.5 | 9.0 |
知识问答能力 | 9.5 | 8.5 | 8.5 | 8.5 | 8.5 |
多模态交互能力 | 8.0 | 8.0 | 7.5 | 8.0 | 8.0 |
逻辑推理能力 | 9.0 | 8.5 | 8.5 | 8.5 | 8.5 |
技术创新性 | 9.5 | 9.0 | 8.5 | 8.5 | 9.0 |
应用场景广泛性 | 9.5 | 8.5 | 9.0 | 8.5 | 8.5 |
用户反馈与市场接受度 | 9.5 | 8.0 | 8.5 | 8.5 | 8.5 |
排名 | 产品名称 | 总分 |
---|---|---|
1 | ChatGPT | 92.5 |
2 | Kimi | 86.2 |
3 | 文心一言 | 85.6 |
4 | 通义千问 | 84.4 |
4 | 讯飞星火 | 84.4 |
ChatGPT有最高总分,表现在多个评判标准上的卓越性能。
Kimi和文心一言都有不错的表现,尤其是在技术创新性方面。
通义千问在技术创新性和应用场景广泛性方面表现良好。
讯飞星火和文心一言在应用场景广泛性和市场接受度方面有稳定的表现,但在其他一些标准上不太行。
2.3 软件工程方面的建议
软件名 | 建议 |
---|---|
Kimi | 1. 增强个性化推荐算法,利用数据挖掘和机器学习技术,分析用户行为和使用习惯,提供个性化服务推荐 2. 优化多模态交互设计,增加语音识别算法,适应不同的口音和语速,提高语音交互的准确性和流畅性 |
文心一言 | 1. 扩展多语言支持,增加对更多语言的支持,特别是非英语用户,提供准确的语言理解和生成能力 2. 引入智能辅助写作功能,开发一个智能辅助写作工具,提供文本建议、语法校正和风格一致性检查 3. 加强隐私保护和数据安全,确保所有用户数据通过加密传输和存储,并定期进行安全审计 |
2.4 BUG存在的未修复原因分析
BUG | 未修复的可能原因 |
---|---|
文心一言----bug1: 文档记忆功能失效 | 需求分析不足,未能充分理解用户需求;设计阶段数据持久性和状态管理考虑不周 |
文心一言----bug2: 古诗词词句顺序错误 | 设计阶段未能准确把握古诗词结构特征;测试用例设计疏漏,未能覆盖所有场景 |
文心一言----bug3: 自然语言理解失效 | 编码逻辑错误或未能有效处理异常输入;测试阶段未能充分验证模型鲁棒性 |
Kimi----bug1: 古诗词锁定错误,胡乱编造 | 需求分析未能准确捕捉用户期望;数据源引用错误或生成逻辑实现不当 |
Kimi----bug2: 无法按照规定字数输出 | 开发人员疏忽,未能正确处理字数限制;测试团队边界测试不充分 |
3. 第三部分:建议与规划
3.1 市场概况
3.1.1 市场规模分析
通过选取几篇文章,对大语言模型的市场规模进行调研
地区 | 市场规模预测 | 增长率 | 预测年份 | 参考资料 |
---|---|---|---|---|
全球 | 预计到2030年将达到411.7亿美元 | 29.71% CAGR | 2030 | Probesto大型语言模型市场规模详解 |
全球 | 需求达到市场规模近865.1亿美元到2032年 | 36.21% CAGR | 2032 | Value Market Research大语言模型市场份额和增长分析报告 |
中国 | 预计2023年市场规模将达到132.3亿元人民币 | 超过100%增长率 | 2023 | 工信部:今年我国语言大模型市场增长率将超100% |
3.1.2 用户群体分析
-
直接用户
大语言模型的直接用户通常已经意识到并开始利用这些模型的自然语言处理和内容生成能力。这些用户群体包括但不限于:- 企业服务:企业使用大语言模型来提升工作效率、市场分析和客户服务。
- 个人助理:个人用户通过智能助理来管理日常任务和获取信息。
- 教育领域:教师和学生利用大语言模型进行语言学习、写作辅导和研究支持。
- 内容创作者:作家、博主和媒体专业人士使用大语言模型来辅助创作、编辑和发布内容。
- 技术开发者和研究人员:利用大语言模型进行算法开发、数据分析和科学研究。
-
潜在用户
潜在用户可能尚未完全意识到大语言模型的潜力和应用场景,但随着技术的成熟和应用案例的增加,这些用户群体可能会逐渐加入使用大语言模型的行列。潜在用户可能包括:- 教育工作者和学生:可能会使用大语言模型进行个性化学习和教学辅助。
- 企业和组织决策者:可能会探索大语言模型在商业智能、市场预测和战略规划中的应用。
- 创意产业专业人士:可能会利用大语言模型来增强创意产出和内容创作的多样性。
- 技术开发者:可能会探索新的大语言模型架构和开发工具,以推动技术创新。
- 政府和非营利组织:可能会使用大语言模型来改善公共服务和社区参与。
3.2 市场现状
3.2.1 现有产品分析
截至2023年10月以后,市场上的大语言模型产品呈现出多样化和专业化的趋势。主要的竞争产品包括:
- OpenAI的ChatGPT4: 以其强大的语言理解和生成能力在全球范围内受到广泛关注。
- 百度的文心一言: 在中文语境中展现出优势,特别是在文本生成和情感分析方面。
- 科大讯飞的讯飞星火认知大模型: 在语音识别领域有深入的应用,提升了语音交互的准确性和自然性。
- 阿里巴巴的通义千问大模型: 在电子商务领域展现出其强大的应用潜力,优化了商品推荐和客户服务体验。
- 月之暗面科技有限公司的Kimi智能助手: 作为一个新兴的AI助手,专注于提供安全、有帮助、准确的对话和信息检索服务,擅长中英文对话,并遵守严格的道德和法律标准。
这些产品在文本生成、情感分析、机器翻译、内容创作等不同领域展现出了强大的应用潜力。
3.2.2 竞品关系与市场态势
-
OpenAI的ChatGPT4
- 定位: ChatGPT4是OpenAI开发的基于GPT-3.5的大型语言模型,定位为多功能的对话式AI,能够进行自然语言处理和生成。
- 优势: 强大的语言理解和生成能力使其在全球范围内受到广泛关注,能够执行编程、问答、文本创作等多种任务。
- 劣势: 尽管功能强大,但在特定领域的适应性和数据隐私方面面临挑战。
- 市场态势: ChatGPT引领了AI对话模型的新浪潮,形成了一个活跃的生态系统,但同时也面临来自不同国家和地区的竞争产品挑战。
-
百度的文心一言
- 定位: 文心一言是百度推出的基于大模型技术的生成式对话产品,专注于提供自然、流畅的对话体验和文本生成服务。
- 优势: 在中文语境中展现出显著优势,尤其在文本生成和情感分析方面,更符合中文用户的使用习惯。
- 劣势: 相比多语言模型,文心一言可能在非中文语境下的应用和适应性上存在局限。
- 市场态势: 文心一言凭借百度的技术和市场优势,正在积极拓展其在中文市场的影响力,并与ChatGPT等国际产品形成竞争态势。
-
科大讯飞的讯飞星火认知大模型
- 定位: 讯飞星火认知大模型是科大讯飞推出的AI大语言模型,旨在提供跨领域的知识和强大的自然语言理解能力。
- 优势: 在语音识别领域有深入应用,提升了语音交互的准确性和自然性,支持多种语种识别。
- 劣势: 作为国内市场的后来者,需要时间来迎头赶上并超越国际领先产品。
- 市场态势: 讯飞星火认知大模型通过与多个行业的合作,正在积极构建其在AI领域的生态,并计划在未来实现对ChatGPT的全面超越。
-
阿里巴巴的通义千问大模型
- 定位: 通义千问大模型是阿里巴巴推出的AI模型,专注于电子商务领域,优化商品推荐和客户服务体验。
- 优势: 在电子商务领域展现出强大的应用潜力,通过精准的商品推荐和客户服务提升了用户体验。
- 劣势: 作为一个多模态模型,可能需要更多的数据和算法优化来处理不同模态间的关系和交互。
- 市场态势: 通义千问大模型通过与阿里巴巴集团内部的多个业务线整合,正在积极拓展其在电商领域的应用,并探索新的商业模式和增长点。
-
月之暗面科技有限公司的Kimi智能助手
- 定位: Kimi智能助手是月之暗面科技有限公司开发的AI助手,专注于提供安全、有帮助、准确的对话和信息检索服务,擅长中英文对话,并遵守严格的道德和法律标准。
- 优势: 作为新兴的AI助手,Kimi在提供准确信息和遵守法规方面展现出优势,能够适应多元化的对话场景。
- 劣势: 作为新兴产品,可能需要时间来建立用户基础和市场信任。
- 市场态势: Kimi智能助手在市场中的定位是作为一个安全、合规的AI对话伙伴,旨在为用户提供高质量的对话体验,并在遵守法律法规的前提下不断优化服务。
3.2.3 市场阶段判断
- 根据2023年10月以后的发展情况,大语言模型市场正处于成长的风口期。
- 理由如下:
- 技术的不断进步和应用场景的拓展使得大语言模型正逐渐从研究实验室走向商业应用。
- 大语言模型技术创新不断、产品迭代快速、应用场景多样化以及竞争和合作并存。
- 随着技术的成熟和市场的扩大,大模型的商业模式和盈利方式变得更加清晰多样化。
- 大语言模型在数据隐私、伦理问题和技术标准上存在待解决的难题。
3.3 市场与产品生态
3.3.1 核心用户群分析
用户 | 学历 | 直接需求 | 潜在需求 |
---|---|---|---|
科研人员 | 科研机构在读研究生或博士生 | 进行复杂的数据分析,发表研究成果 | 建立跨学科合作,获取研究资助 |
相关专业学生 | 科研机构在读本科生或研究生 | 完成课程作业,辅助课程或者科研 | 提升就业竞争力,参与实际项目 |
行业专家 | 硕士及以上学历,多年行业经验 | 行业分析,市场预测,决策支持 | 追求深入见解,持续教育和培训 |
企业决策者 | 高级管理学位,丰富的管理经验 | 业务流程优化,风险评估,市场洞察 | 增强企业竞争力,提高盈利能力 |
内容创作者 | 不限学历,重视创造力和表达能力 | 创意写作,内容编辑,社交媒体管理 | 建立个人品牌,扩大受众群体 |
开发者 | 计算机科学或相关技术专业背景 | 软件开发,应用集成,技术支持 | 技术提升,项目成功,社区认可 |
数据分析师 | 统计学、数据分析或相关专业背景 | 数据挖掘,报告制作,趋势预测 | 深入数据洞察,业务决策支持 |
3.3.2 用户群体关系与生态构建
大语言模型(LLMs)的用户群体多样化,包括科研人员、学生、开发者、企业决策者等。
- 科研人员与学生:科研人员通过研究推动大模型技术的边界,学生作为未来的科研和技术力量,通过学习和实践参与到技术的发展和应用中,有利于促进大语言模型和新技术的创新发展。
- 开发者与企业决策者:开发者利用大模型技术开发新的应用和服务,而企业决策者则根据市场需求和战略方向,决定如何将这些技术整合到产品和业务流程中,促进了大语言模型的商业化发展。
- 跨领域合作:不同行业和领域的用户通过大模型技术跨界合作,如AI辅助医疗诊断、教育、金融投资分析等等。
大语言模型技术群体的生态系统中,用户群体才是技术的使用者,贡献者和创新者,共同推动着技术的迭代和优化。
3.3.3 子产品与相关产品关系
-
大语言模型作为一项基础技术,催生了各类子产品和相关产品,构建了一个丰富的产品生态。
- 子产品:基于大模型开发的特定功能产品,如聊天机器人、内容创作工具、数据分析平台等,这些子产品专注于解决特定问题或满足特定需求。
- 相关产品:与大模型技术相结合的其他技术产品,如自然语言处理工具、机器学习框架、云计算服务等,它们为大模型的应用提供了支持和扩展。
-
产品间的相互关系表现为:
- 技术互补:子产品和相关产品通过技术整合,提供更全面的解决方案。例如,大模型与云计算服务结合,可以提供更强大的数据处理和存储能力。
- 生态共生:子产品和相关产品在市场中相互促进,共同成长。强大的子产品可以增强整个生态系统的吸引力,而丰富的相关产品则为子产品的创新和应用提供了更多可能性。
3.4 产品规划
3.4.1 新功能设计
- 功能描述:为文心一言增添类似Kimi一样的多文档记忆和快速处理新功能
- 文心一言增添多文档处理功能的NABCD分析
N - 需求 (Need)
- 用户需求:用户需要高效管理和分析大量文档,以提高工作效率和生产力。
- 市场趋势:随着数字化转型的加速,对高效文档管理工具的需求日益增长。
A - 实现的做法 (Approach)
- 技术实现:利用“文心一言”的先进自然语言处理技术,实现多文档的内容提取、整合和分析。
- 存储方面:优化文心一言本身的上下文处理功能,存储多个文档的内容。
- 用户体验设计:通过直观的用户界面和流畅的交互设计,简化多文档的上传、管理和操作流程。
B - 好处 (Benefit)
- 效率提升:用户可以节省在不同应用间切换的时间,提高工作效率和生产力。
- 决策支持:多文档分析提供全面的信息,帮助用户做出更明智的决策。
C - 主要竞争对象 (Competitors)
- 现有竞争者:市场上已有的多文档处理大语言模型,如Kimi。
- 潜在竞争者:随着AI技术的发展,可能会出现新的竞争对手,集成更先进的AI功能来满足市场需求。
D - 推广 (Delivery)
- 市场定位:“文心一言”的多文档处理功能将定位为AI驱动的高效文档管理解决方案,针对企业用户和专业人士。
- 营销策略:通过在线广告、合作伙伴关系和用户推荐计划来推广这一新功能。
- 用户教育:提供详细的使用指南、教程,帮助用户了解和充分利用多文档处理功能。
3.4.2 团队配置与角色规划
角色 | 人数 | 职责描述 | 时间线说明 |
---|---|---|---|
项目经理 | 1 | 负责项目规划、进度跟踪、资源管理和团队协调。 | 从项目开始到结束,全程监督项目进度和质量。 |
前端开发工程师 | 1 | 负责用户界面的开发和实现。 | 主要工作集中在前4周,之后持续进行界面优化和bug修复。 |
后端开发工程师 | 2 | 负责后端逻辑、数据库设计和API开发。 | 前4周完成核心功能开发,之后进行功能测试和性能优化。 |
测试工程师 | 1 | 负责编写测试用例、执行测试和质量保证。 | 在开发阶段开始编写测试用例,开发结束后进行全面测试。 |
UI/UX设计师 | 1 | 负责设计新功能的界面和用户体验。 | 与前端开发工程师紧密合作,确保设计在开发阶段得到实施。 |
3.4.3 16周期开发规划
周数 | 阶段 | 任务 | 描述 | 新功能特性 |
---|---|---|---|---|
1-2 | 项目启动 | 团队组建、项目规划、需求分析 | 确定项目目标、角色分配、资源准备 | 多文档上传、支持常见文档格式 |
3-4 | 设计阶段 | UI/UX设计、技术架构设计 | 完成界面设计和用户体验设计,确定技术架构 | 界面友好、操作直观、格式识别 |
5-8 | 开发阶段 | 前端、后端开发、API实现 | 开发多文档处理的核心功能,实现前后端交互 | 文档解析、内容提取、并行处理 |
9-10 | 集成阶段 | 功能集成、初步测试 | 集成各个模块,进行初步的集成测试 | 确保各功能协同工作、无明显bug |
11 | 用户测试 | 用户测试计划、测试用例编写 | 邀请目标用户参与测试,收集反馈 | 用户体验优化、功能完善 |
12 | 性能优化 | 性能测试、优化 | 对系统进行压力测试,优化性能瓶颈 | 快速响应、高并发处理能力 |
13 | 功能迭代 | 根据用户测试反馈进行迭代 | 根据用户反馈调整和优化功能 | 增强稳定性、提升用户满意度 |
14 | 文档编写 | 用户手册、操作指南编写 | 准备详细的用户手册和操作指南 | 提供清晰的使用说明、方便用户上手 |
15 | 内部发布 | 内部发布、最终测试 | 对全体内部用户发布,进行最终测试 | 修复最后的问题、准备公开发布 |
16 | 公开发布 | 发布准备、正式发布 | 完成最终的调整,正式发布新功能 | 多文档处理功能正式上线 |