软件工程实践——软件评测作业_ernie bot 简答题评分-CSDN博客

本文链接：https://blog.csdn.net/czxgyt/article/details/137751505

这个作业属于哪个课程	2023软件工程
这个作业要求在哪里	软件工程实践——软件评测作业
这个作业的目标	文心一言VS讯飞星火：测评博客
其他参考文献	…

第一部分调研，评测

1.0 BUG 量化标准

严重程度	注释
★	建议型问题，对系统功能几乎没有什么影响，不影响安全性，也不影响用户使用
★★	界面问题，对系统功能有较小的影响，不影响安全性，稍微影响用户使用
★★★	一般错误，对系统功能有一般程度的影响，不影响安全性，比较影响用户使用
★★★★	严重错误，对系统功能有很大程度的影响，影响安全性，非常影响用户使用
★★★★★	致命错误，对系统功能有严重程度的影响，严重影响安全，极其影响用户使用

1.1 文心一言

1.1.1 使用体验

文心一言（英文名：ERNIE Bot）是百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型，基于飞桨深度学习平台和文心知识增强大模型，持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。
使用截图
优缺点分析
- 优点：
  - 1. 具备较为精准的自动摘要功能，可以帮助用户快速抽取文本中的核心信息，并生成简洁明了的摘要。
  - 1. 回答较为客观中立，当问及一些主观性强的问题时（例如：谁是最伟大的足球运动员），会给出客观的回答。
  - 1. 可以自动检测文本中的错误，例如语法错误、拼写错误和逻辑错误，并提供修正建议。
- 缺点：
  - 1. 对于一些复杂的语言处理任务，例如情感分析、文本分类等，文心一言的表现可能不如专业的模型。
  - 1. 文心一言的内容存在一定的局限，可能无法覆盖到所有的领域和话题，这对于某些特定领域的文本处理能力相对较弱。
  - 1. 上下文响应篇幅较短，响应时间较长。
改进意见
- 引入更先进的模型架构：可以考虑采用更先进的深度学习模型，如Transformer、BERT等，来增强文心一言在情感分析、文本分类等复杂任务上的性能。
- 领域适应性训练：对于特定领域的任务，可以对文心一言进行领域适应性训练，使其能够更好地理解和处理该领域的文本数据。
- 扩展数据源：增加训练数据的多样性和覆盖范围，以便让文心一言能够学习到更多领域和话题的知识。
- 用户反馈循环：引入用户反馈机制，以便从用户那里收集关于响应质量和速度的反馈，然后根据这些反馈对模型进行持续改进。
其他用户体验
- 用户背景：计算机大三学生
- 用户需求：生成测试用例，代码生成以及Debug
- 产品栏目：对话、数据生成
- 遇到的问题和亮点：生成数据缺漏，生成的代码不符合题干要求
- 改进：加强AI大模型的训练

1.1.2 BUG描述

Bug发生时的测试环境
- 操作系统：win10
- 浏览器:edge
- Bug发现时间:2024/4/14
Bug的可复现性及具体复现步骤
- 问题描述：生成数据缺漏
- 可复现性：偶尔发生（4/10）
- 具体复现步骤：让文心一言按照下的数据格式，自动生成20行数据
Bug具体情况描述
- 能够正确生成，但是生成的数据量没有20行；提示继续生成后，生成的数据并未严格按照给定的数据格式。
- Bug截图：
Bug分析
- 可能原因
  - 数据集规模：可能文心一言的原始数据集较小，所以不能满足20行的数据需求。
  - 数据生成策略：文心一言生成数据的策略可能限制了生成数据的行数。
  - 计算资源限制：AI生成数据需要消耗大量的计算资源，包括CPU、内存和存储等。如果计算资源有限，那么AI可能无法生成足够多的数据。
- Bug的严重性：★★★
  - 理由：对系统功能有一般程度的影响，不影响安全性，影响用户体验
- 对于Bug的预期及改进建议
  - 增加数据集规模：如果可能的话，尝试增加原始数据集的规模。更多的数据可以帮助AI模型更好地学习和生成数据。
  - 优化数据生成策略：检查并优化AI的数据生成策略。确保策略能够适应数据集的特性和需求，从而生成更多的数据。

1.1.3 结论

类别	评分（5）
核心功能	4.5
界面	4
用户体验	4
总评	4.17

1.2 讯飞星火

1.2.1 使用体验

讯飞星火是科大讯飞推出的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。2023年5月6日，科大讯飞正式发布星火认知大模型，具有7大核心能力，即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。
使用截图
优缺点分析
- 优点
  - 能够进行复杂的逻辑推理和数学计算，并给出步骤和答案
  - 具有强大的文本生成能力，采用深度学习技术，能够根据用户需求生成高质量的文本内容
  - 个性化定制：能够根据用户的喜好和需求，提供个性化的文本生成服务
- 缺点
  - 语义理解不足：虽然取得了一定成果，但在语义理解方面仍有一定的局限性，可能无法完全理解用户的需求
  - 对于一些史实或传统典籍，可能出现编造或歪曲的情况
  - 对于多模态内容的生成，可能出现质量不高或不自然的情况
改进意见
- 引入更先进的语言模型：考虑使用更先进、更大规模的预训练语言模型，如Transformer架构的模型，以提升对复杂语义的理解能力。
- 专门的数据集：为历史和传统典籍内容创建专门的数据集，并用这些数据集对模型进行训练，以确保其能够准确处理这些领域的内容。
- 多模态模型：使用能够处理多种模态数据的模型，如Transformer架构的模型结合卷积神经网络（CNN）或循环神经网络（RNN）等。

1.2.2 BUG描述

Bug发生时的测试环境
- 操作系统：win10
- 浏览器:edge
- Bug发现时间:2024/4/14
Bug的可复现性及具体复现步骤
- 问题描述：未能发现用户问题中的错误，回答的内容也与问题无关
- 可复现性：必然发生（讯飞星火重复作答10次，每次回答都与问题不相干）
- 具体复现步骤：输入“在中国四大名著《红楼梦》中，‘林黛玉倒拔垂杨柳’出现在第几章，故事大概是什么样的?”
Bug具体情况描述
- 面对错误的问题，AI本着你胡说八道，我就更胡说八道的理念，基本上的就是错上加错。
Bug分析
- 可能原因
  - 知识库限制：讯飞星火的知识库可能并不完整或过时，导致它无法准确识别问题中的事实错误。例如，如果AI的训练数据中没有涵盖某个特定领域的知识，那么它可能无法识别该领域内的错误。
  - 语义理解能力：尽管讯飞星火在自然语言处理方面取得了显著进步，但仍然可能无法完全理解问题的语义和上下文。这可能导致讯飞星火无法准确识别问题中的事实错误，尤其是当错误涉及到复杂的语言结构或隐含含义时。
  - 泛化能力不足：模型可能过于依赖训练数据中的特定模式，导致对于与训练数据分布不同的输入无法很好地泛化。这可能导致模型在遇到新问题时无法产生准确的回答。
- Bug的严重性：★★★★
  - 理由：严重错误，对系统功能有很大程度的影响，非常影响用户使用
- 对于Bug的预期及改进建议
  - 扩展知识库：不断更新和扩展AI的知识库，以涵盖更广泛的领域和知识点。
  - 提高语义理解能力：继续研究和改进模型在自然语言处理方面的能力，以提高其对问题语义和上下文的理解。
  - 增强常识推理能力：研究如何将常识推理融入AI模型中，以提高其在识别事实错误方面的能力。

1.2.3 结论

类别	评分（5）
核心功能	3.8
界面	4
用户体验	4
总评	3.93

第二部分分析

2.1 时间估计

开发流程	阶段目的	预估时间
需求分析	收集和理解客户的需求，确定软件的功能和特性。	1~2周
设计	制定软件架构，设计用户界面和用户体验，以及编写详细的设计文档。	2-4周
开发	编写代码，实现设计文档中定义的功能。	8-12周
测试	确保软件的质量和稳定性，找出并修复潜在的问题。	2-4周
部署与维护	将软件部署到生产环境，提供持续的维护和更新。	持续进行
总和		6个月起

2.2 评价比对

文心一言
- 优势
  - 自然语言处理能力强，能够理解并生成高质量的文本内容。
  - 应用场景广泛，适用于不同领域和行业。
  - 支持多语言处理，满足不同用户的需求。
讯飞星火
- 优势
  - 在语音识别方面表现出色，能够准确识别用户的语音输入。
  - 自然语言理解能力强，能够准确捕捉用户的意图并提供相应的回应。
  - 注重用户体验，致力于为用户提供更加便捷、智能的服务。
综评：文心一言和讯飞星火各自拥有独特的特点和优势。文心一言在自然语言处理、应用场景和多语言处理方面表现出色，而讯飞星火则在语音识别和用户体验方面具备优势。

2.3 BUG原因分析

文心一言
- Bug：生成数据缺漏
- Bug原因分析
  - 对用户需求掌握不好：开发团队没有充分理解用户的具体需求和期望的输出结果
  - 其他：可能是系统资源不足（如内存、计算能力等）导致的数据缺失
讯飞星火
- Bug：未能发现用户问题中的错误，回答的内容也与问题无关
- Bug原因分析
  - 对用户需求掌握不好：用户的提问方式可能与模型训练时使用的数据格式或语境不符，导致模型无法正确解析。
  - 具体的设计质量不高：可能缺乏处理复杂或模糊问题的逻辑，导致无法准确识别错误或给出相关回答。
  - 其他：当前的AI技术还存在一些局限性，例如对于某些特定领域或问题的处理可能不够成熟。

2.4 软件工程建议

持续集成与持续部署 (CI/CD): 实现自动化的测试、构建和部署流程，确保频繁和可靠的更新。这对于快速迭代和部署新模型至关重要，还可以提高开发效率和产品质量。
数据管理和管道: 建立健壮的数据管理策略和数据管道，以确保数据的质量和完整性，更好解决生成数据缺漏的问题。

第三部分建议和规划

3.1 市场概况

市场规模：生成式AI软件市场规模难以精确估计，因为这个行业不断发展和演变。然而，根据市场研究报告，全球生成式AI软件市场规模在2020年达到了约15亿美元，并预计到2025年将增长到约100亿美元，复合年增长率（CAGR）为34.8%。
直接用户：根据市场调查机构Gartner的报告，截至2023年，约有26%的中国用户已经开始部署生成式AI技术。然而，这只是一个大概的数值，并且只针对中国市场。在全球范围内，直接用户的数量可能更多。
潜在用户：由于生成式AI技术在各个领域都有广泛的应用前景，因此潜在用户的数量可能非常庞大，但具体数值难以确定。

3.2 市场现状

3.2.1 市面现有产品

文心一言：这是一款由百度开发的大型语言模型，具有强大的自然语言处理能力和知识推理能力，可以用于智能客服、智能写作、智能推荐等多个领域。
ChatGPT：这是一款由OpenAI开发的大型语言模型，具有良好的性能和更广泛的应用场景，可以用于自然语言处理、图像识别、语音识别等多个领域。
讯飞星火：科大讯飞发布的一款认知大模型。
其他软件

3.2.2 产品的定位、优势与劣势

文心一言
- 产品定位：百度文心一言（ERNIE Bot）是百度基于文心大模型技术推出的生成式对话产品，是百度在人工智能领域深耕十余年后，拥有产业级知识增强大模型ERNIE的基础上，利用跨模态、跨语言的深度语义理解与生成能力而开发的一款AI聊天机器人。
- 优势：结合百度在搜索、百科、知道、文库、视频、新闻等海量数据和知识积累上的优势，文心一言具备知识增强、检索增强和对话增强的技术特色，能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。
- 劣势：由于文心一言依赖于百度在搜索、百科等领域的数据和知识积累，这可能导致在某些特定场景下，其生成的内容可能受到这些数据来源的限制。
科大讯飞
- 产品定位：讯飞星火是科大讯飞推出的一款认知大模型，旨在为用户提供智能对话、知识问答、逻辑推理、数学计算等多种服务。
- 优势：讯飞星火结合了科大讯飞在语音、自然语言处理等领域的深厚积累，具有较高的性能和准确性。同时，讯飞星火还注重实际应用场景的需求，致力于为用户提供更加智能、便捷的服务。
- 劣势：尽管讯飞星火具备多种核心能力，如文本生成、语言理解等，但在某些特定领域，如高度专业化的技术或行业知识方面，其性能可能不如专业领域的AI模型。这限制了其在某些特定场景下的应用。

3.2.3 产品关系

竞品关系：文心一言和讯飞星火，它们之间存在竞争关系，因为它们都致力于提供类似的技术解决方案，竞争的焦点主要在于产品的性能、功能和市场份额。竞争中的各方态势取决于各自的技术实力、市场推广能力和客户资源。
竞争中的各方态势
- 百度文心一言：作为百度在人工智能领域的重要布局，文心一言得到了百度的全力支持。百度拥有强大的技术实力和丰富的数据资源，这为文心一言的发展提供了有力的保障。同时，百度还积极与各行业合作，拓展文心一言的应用场景，提升其市场影响力。
- 科大讯飞星火：科大讯飞作为国内领先的智能语音和人工智能企业，拥有深厚的技术积累和行业应用经验。讯飞星火作为科大讯飞推出的认知大模型，得到了公司的重点支持。科大讯飞还积极与各行业合作，推动讯飞星火在各个领域的应用。

3.2.4 领域阶段

生成式AI领域正处于风口阶段。近年来，随着深度学习、自然语言处理、计算机视觉等技术的快速发展，生成式AI在多个领域取得了显著进展，如文本生成、图像生成、语音合成等。同时，生成式AI也受到了越来越多的关注和投资，成为了AI领域的一个热门方向。
在这个阶段，生成式AI领域正经历着快速的技术创新和应用拓展。各种新的模型、算法和应用场景不断涌现，推动着生成式AI技术的不断发展和完善。同时，随着生成式AI技术的广泛应用，其对社会和经济的影响也逐渐显现，成为了全球范围内的关注焦点。

3.3 市场与产品生态

3.3.1 核心用户群

文心一言
- 核心用户群：一线、超一线城市的中青年打工人。这部分用户群体在IT互联网和教育两大行业中的占比最高。他们使用文心一言的主要场景包括知识问答、文本创作和代码能力等方面。
- 典型用户
  - 学历：用户通常拥有较高的学历水平，比如大学本科或以上，来自IT、金融、法律、教育等专业领域。
  - 年龄：25至34岁之间
  - 专业：主要集中在IT互联网和教育两大行业。
  - 爱好：喜欢探索新技术，并乐于使用智能化的工具来提升工作效率和生活品质。
  - 收入：收入相对较高
  - 表面需求：主要使用文心一言进行知识问答、文本创作和代码编写等任务。通过文心一言快速获取所需知识，高效完成文本创作工作，以及便捷地进行代码编写和调试。
  - 潜在需求：实现个人能力的提升和职业发展的突破，不断提升自己的专业素养和技能水平，从而在激烈的竞争中脱颖而出。
讯飞星火
- 核心用户群：主要是职场人士，尤其是那些需要进行大量文字处理、语音输入输出、会议记录等工作的人群。
- 典型用户
  - 学历：用户通常拥有较高的学历水平，比如大学本科或以上，来自IT、金融、法律、教育等专业领域。
  - 年龄：年龄层一般较为广泛，从年轻的职场新人到中年的资深专业人士都可能是典型用户。不过，年轻一代可能因为对新技术的接受度更高而更为常见。
  - 专业：专业背景多样，但往往与需要处理大量文字资料、数据分析、报告撰写等工作相关的行业，如记者、编辑、研究员、商业分析师、秘书和行政人员等。
  - 爱好：典型用户可能对技术有较高的兴趣，喜欢尝试和应用新工具以提高工作效率。他们也可能对语言和写作有一定的兴趣。
  - 收入：考虑到讯飞星火的用户群体通常需要购买订阅服务，可以推测这些用户的收入水平至少在中等以上，能够负担起这类产品的费用。
  - 表面需求：
    - 快速准确地进行语音识别和转写。
    - 便捷高效地进行文件管理和编辑。
    - 智能地安排日程和提醒事项。
    - 提高会议效率和协作效果。
    - 减少手动输入的时间和劳动强度。
  - 潜在需求：
    - 提高工作效率和生产力。
    - 在快节奏的工作中保持组织性和高效率。
    - 通过使用高科技工具来提升个人专业形象。
    - 减少因语言障碍造成的沟通困难。
    - 实现更好的工作生活平衡。

3.3.2 用户群体之间的关系

文心一言
- 首先，文心一言的用户群体主要是中青年打工人，其中IT互联网和教育行业的用户占比最高。这些用户在工作和学习中经常需要处理大量的文本信息，对高效、准确的自然语言处理能力有较高需求。他们通过使用文心一言进行知识问答、文本创作和代码编写等任务，形成了共同的使用场景和需求。此外，文心一言还可以作为连接不同行业和领域的桥梁，促进跨行业的合作和交流。
- 基于这些用户之间的相互作用，有可能构建一个特定的用户生态。例如，可以通过举办线上线下的交流活动，让用户分享使用心得、交流行业见解，促进知识的传播和共享。同时，可以针对用户的需求和反馈，不断优化文心一言的功能和性能，提升用户体验。此外，还可以与相关行业和领域的合作伙伴共同开发基于文心一言的应用场景和解决方案，拓展文心一言的应用范围和市场空间。
科大讯飞
- 由于讯飞星火的用户之间存在同事/合作等关系，因此有可能利用这些相互作用二次构成特定用户生态。例如，企业可以根据自身需求开发定制化的功能模块，并通过API接口与讯飞星火进行集成，实现更加高效的工作流程。此外，讯飞星火还可以通过提供开放平台，吸引更多的第三方开发者和合作伙伴加入，共同构建用户生态。

3.4 产品规划

3.4.1 新功能描述

行业垂直领域的专业问答与内容生成。

创新点：将智能问答和内容生成与行业垂直领域相结合，打破了传统智能工具只能提供通用答案和内容的局限。通过深入理解和满足用户的行业特定需求，为用户带来更为精准、专业的服务体验。

NABCD	具体内容
N（Need，需求）	许多用户在使用文心一言时，不仅需要基本的文本创作和知识问答功能，还希望它能更深入地满足特定行业或领域的专业需求。例如，法律从业者可能需要它帮助分析法律条文，医生可能希望它能辅助撰写医学论文，而程序员则可能期望它能生成更专业的代码注释。
A（Approach，做法）	引入更精细化的行业领域数据，并结合深度学习技术，训练出针对各个行业的专业模型。
B（Benfit，好处）	提高用户在使用文心一言时的效率和满意度，进一步提升文心一言的市场竞争力，吸引更多专业领域的用户。
C（Competitors，竞争）	尽管市场上已有一些智能问答和内容生成工具，但大多数产品尚未深入到行业垂直领域。因此，文心一言通过推出这一功能，将能够在竞争中脱颖而出，满足用户的特殊需求。
D（Delivery，实施）	首先收集并整理各行业的数据，然后利用现有的深度学习框架进行模型训练。同时，我们也将与各行业的专业人士合作，以确保生成的内容符合行业规范。

3.4.2 开发角色配置

产品经理/项目负责人（1人）：负责需求分析和产品规划，监控项目进度，协调团队工作。
UI设计师（1人）：根据产品需求，设计软件的界面和用户体验。
前端开发工程师（1人）：负责用户界面设计和前端功能实现。
后端开发工程师（1人）：负责后端逻辑、数据库设计和API开发。
AI算法工程师（1人）：负责AI模块的开发
测试工程师（1人）：负责编写测试用例，执行功能测试、性能测试等，确保软件质量，及时报告和跟踪问题。

3.4.3 项目规划

第1-4周
- 需求分析：产品经理进行需求确认和梳理，明确产品改进的目标和范围。
- 设计评审：UI/UX设计师完成界面设计，与团队进行评审，确保设计符合产品目标和用户体验要求。
- 任务分配与计划制定：根据需求和设计，开发人员和测试人员分别制定自己的工作计划，并进行任务分配。
第5-12周
- 开发阶段：开发人员按照计划进行编码工作，确保代码质量和功能实现。测试人员开始编写测试用例，并进行初步测试。
- 中期评审：在第8周左右进行中期评审，检查项目进度，评估风险，调整计划。
第13-15周
- 全面测试：测试人员进行详细的功能测试和性能测试，确保软件质量和稳定性。
- 问题修复与优化：开发人员修复测试中发现的问题，并根据反馈进行必要的优化。
第16周
- 产品发布：确保软件准备就绪，进行最后的检查和测试，发布软件。
- 总结与反馈：项目团队进行总结，收集用户反馈，为后续的迭代和改进提供依据。