这个作业属于哪个课程 | 2302软件工程 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 为软件写一个评测博客,包括调研、评测、分析、建议和规划。 |
其他参考文献 | 《构建之法》 |
第一部分 调研,评测
1.0 Bug评级量化标准
星级 | 说明 |
---|---|
⭐ ⭐ ⭐ | 严重性高,非常影响用户使用,以及消息传播不实可能造成严重影响。 |
⭐ ⭐ | 严重性中等,读取用户提问的问题有误,影响用户使用,不能给出用户需要的结果。 |
⭐ | 严重性较低,读取用户提问的问题有误,影响用户使用,但用户可在此基础上稍作调整。 |
1.1 文心一言
1.1.1 使用体验
介绍和使用软件: 首先我们来看看百度百科给文心一言的解释,文心一言(英文名:ERNIE Bot)是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习,得到预训练大模型,在此基础上采用有监督精调、人类反馈强化学习、提示等技术,具备知识增强、检索增强和对话增强的技术优势。关于使用的话可以用手机号进行简单的注册和登录。
优缺点分析:
- 优点:
- 文心一言在生成文本时表现出了极高的流畅性和连贯性。它能够根据用户提供的主题或关键词,快速生成逻辑清晰、语句通顺的文章,大大降低了用户在写作过程中的构思和表达难度。第一次尝试使用文心一言时,我给出一个主题并让它围绕主题写一篇文章,文章整体十分流畅;
- 其次,文心一言具有强大的主题生成能力。无论是科技、文化、生活还是其他领域的主题,它都能迅速理解并生成相关的短句和段落,为我提供了丰富的素材和灵感;
- 此外,文心一言在内容生成上严格遵循道德和法律规范,坚决避免暴力、色情等不良内容的传播,展现出了积极、健康的价值观,也让我感受到文心一言所传达的正能量和积极态度。
- 缺点:
- 首先,尽管它能够在一定程度上理解用户的意图和需求,但在某些复杂或特定的语境下,仍可能出现理解偏差或生成不够准确的情况;
- 其次,文心一言在生成长篇文章时,有时会出现内容重复或结构单一的问题,这可能会影响文章的质量和可读性;
- 此外,文心一言对提问的字数存在限制,最大字数不得超过2000字,这在一定程度上限制了用户和平台交互信息的完整性程度,也会在一定程度上影响对用户提问问题的判断。
改进意见:
- 引入更多领域知识:文心一言可以进一步扩充其领域知识库,涵盖更多专业和特定语境下的词汇和表达,以提升在复杂或特定语境下的理解准确性。
- 优化算法模型:通过改进深度学习算法和模型结构,提升模型对语义和上下文的理解能力,减少生成文本中的理解偏差和不准确情况。
- 增加内容拓展功能:用户可以针对生成的初稿进行内容拓展,通过提供额外的关键词或指导,让文心一言在原有基础上进行更丰富、深入的创作。
- 优化处理机制:改进文心一言对提问的处理机制,使其能够更有效地处理更长的输入文本,同时保持高效的响应速度。
采访
采访对象:网络工程专业
需求:处理一些文本
记录:
1.1.2 Bug1描述
1.1.2.1 Bug发生时的测试环境
浏览器:
- Microsoft Edge
- 版本 123.0.2420.81 (正式版本) (64 位)
笔记本:
- 版本 Windows 11 家庭中文版
- 版本 21H2
- 操作系统版本 22000.2538
- 体验 Windows 功能体验包 1000.22001.1000.0
1.1.2.2 Bug的可复现性及具体复现步骤
可复现性: 是偶尔发生的bug,出现频率为100次测试中发生了3次。
具体复现步骤: 先向文心一言提问“抗日战争从哪一场战役算开端”,继续提问“九一八事变也称卢沟桥事变吗”。
1.1.2.3 Bug具体情况描述
文心一言知识库出现错误,出现历史重大史实混淆。记录如下:
1.1.2.4 Bug分析
可能成因:
- 首先,由于历史事件的复杂性和多样性,文心一言可能在处理某些具体史实时存在理解偏差或信息不足的情况,导致生成的文本中存在史实错误。
- 其次,文心一言在生成文本时主要依赖于对大量语料库的学习和分析,而非直接查阅权威的历史资料或进行深入研究。因此,在某些情况下,它可能会受到语料库中错误或误导性信息的影响,从而在生成的文本中反映出这些错误。
严重性: ⭐ ⭐ ⭐
功能不完善,用户使用感、体验感和信息传播性非常差。
对于Bug的预期及改进建议:
- 预期正确史实:
建议:- 增强语料库的准确性和多样性:文心一言的准确性和可靠性在很大程度上取决于其训练的语料库。因此,为了减少史实错误,需要不断地丰富和更新语料库,特别是历史和文化领域的语料库。同时,还需要确保语料库的准确性,避免包含错误或误导性的信息;
- 优化算法和模型:通过改进算法和模型结构;
- 引入领域专家和权威资料:在文心一言的训练和优化过程中,可以引入历史和文化领域的专家,提供准确的历史知识和文化背景。同时,也可以利用权威的历史资料和文献,为模型提供更准确的历史数据和信息;
- 提供反馈和修正机制:鼓励用户在使用文心一言时提供反馈,对于生成的文本中存在的史实错误进行修正。同时,可以建立一个错误修正数据库,将用户反馈的错误和修正信息纳入其中,用于后续模型的优化和改进。
1.1.3 Bug2描述
1.1.3.1 Bug发生时的测试环境
浏览器:
- Microsoft Edge
- 版本 123.0.2420.81 (正式版本) (64 位)
笔记本:
- 版本 Windows 11 家庭中文版
- 版本 21H2
- 操作系统版本 22000.2538
- 体验 Windows 功能体验包 1000.22001.1000.0
1.1.3.2 Bug的可复现性及具体复现步骤
可复现性: 是偶尔发生的bug,错误频率较高,出现频率为100次测试中发生了90次。
具体复现步骤: 向文心一言提问“请画出一片天空两个月亮的图片”。
1.1.3.3 Bug具体情况描述
文心一言对语言的理解和图片的绘画出现了bug,图片并没有按要求画出两个月亮。
1.1.3.4 Bug分析
可能成因: 首先,文心一言的训练数据可能来源于各种渠道,如果这些数据中存在错误、噪声或不准确的信息,就可能导致其生成的画作与要求不符。
严重性: ⭐ ⭐
功能不完善,体验感很差。
对于Bug的预期及改进建议:
- 预期正确图片:
建议:- 优化模型的自然语言处理能力,使其能更准确地理解用户输入的绘画指令。
- 建立一个用户反馈系统,让用户能够直接对生成的画作进行评价和反馈。
- 与专业的艺术家合作,让他们为模型提供指导和建议。
- 需要持续地对模型进行迭代和优化,以适应不断变化的绘画环境和用户需求。
1.1.4 Bug3描述
1.1.4.1 Bug发生时的测试环境
浏览器:
- Microsoft Edge
- 版本 123.0.2420.81 (正式版本) (64 位)
笔记本:
- 版本 Windows 11 家庭中文版
- 版本 21H2
- 操作系统版本 22000.2538
- 体验 Windows 功能体验包 1000.22001.1000.0
1.1.4.2 Bug的可复现性及具体复现步骤
可复现性: 在测试过程中是必然出现的。
具体复现步骤: 首先向文心一言提问“请你生成一个科幻故事,以“你好,银河系”作为结尾的最后一句”,再次提问“你是否以“你好,银河系”作为结尾的最后一句了呢”。
1.1.4.3 Bug具体情况描述
文心一言并没有按照用户要求,将“你好,银河系”作为文章的最后一句,并且在问出第二个问题后,文心一言知道上一步给出的答案错误,纠正后结果依然错误。
1.1.4.4 Bug分析
可能成因: 文心一言是基于大量的训练数据和复杂的算法来工作的,这些训练数据可能并不完全覆盖所有的语境和表达方式,因此,在某些情况下,模型可能无法准确理解或生成符合特定要求的文章。
严重性: ⭐
功能不完善,体验感稍差,但用户可以稍微修改使用。
对于Bug的预期及改进建议:
- 预期正确结果:
文章应该以“你好,银河系”作为结尾的最后一句。- 建议: 优化模型的训练数据、调整模型的参数设置、改进模型的训练策略等方法。
1.1.5 结论
c) 一般
维度 | 子项 | 评分标准 | 得分 |
---|---|---|---|
内容生成质量 (30分) | 流畅性和连贯性 | 逻辑清晰、语句通顺 | 10 |
主题理解与创意 | 理解多种领域,有时偏差 | 8 | |
信息准确性 | 出现史实混淆和错误生成 | 5 | |
创新能力 (20分) | 主题生成能力 | 快速生成跨领域内容,有偏差 | 9 |
独特性与灵感激发 | 丰富素材,积极帮助 | 10 | |
合规性与价值观 (20分) | 遵守法规与道德 | 严格遵循,积极避免不良内容 | 10 |
传递正能量 | 积极健康形象 | 10 | |
用户体验 (20分) | 交互便捷性 | 提问字数限制 | 3 |
错误修正反应 | 知错未有效修正 | 2 | |
用户满意度 | 流畅性与创意,准确性问题 | 6 | |
稳定性与可靠性 (10分) | 一致性与准确度 | 内容重复与理解偏差 | 2 |
系统稳定性 | 推测常规稳定 | 4 | |
总分 | 79 |
1.2.通义千问
1.2.1 使用体验
介绍和使用软件: 初次使用通义千问,依旧是使用手机号进行注册和登录。
- 首先,通义千问的响应速度很快,结果的输出过程也十分顺畅,几乎做到了实时回答用户的问题。
- 此外,通义千问还具备很好的交互性,用户可以通过自然语言与通义千问进行对话,这使得交流更加自然流畅。通义千问还能根据用户的反馈进行智能调整,以更好地满足用户的需求。
优缺点分析:
- 优点:
- 响应速度快,问题回答流畅;
- 交互性较好。
- 缺点:
- 对于回答的问题的准确性有待提高,尤其是与数学相关的计算问题,
- 知识更新滞后,没有及时更新最新发生的事件;
- 模型的理解能力可能会受限,需要不断优化和学习;
- 训练数据存在偏差,模型在生成回答时可能也会复现这些错误或偏差。
改进意见:
- 建立实时知识获取与更新机制;
- 强化语句理解以及推理能力,进一步优化自然语言处理算法;
- 强化数学计算能力,结合符号计算、数值计算和机器学习方法,大幅增强AI助手在解决数学问题上的能力。
采访
采访对象:网络工程专业
需求:处理一些文本
记录:
1.2.2 Bug描述
1.2.2.1 Bug发生时的测试环境
浏览器:
- Microsoft Edge
- 版本 123.0.2420.81 (正式版本) (64 位)
笔记本:
- 版本 Windows 11 家庭中文版
- 版本 21H2
- 操作系统版本 22000.2538
- 体验 Windows 功能体验包 1000.22001.1000.0
1.2.2.2 Bug的可复现性及具体复现步骤
可复现性: 在测试过程中是必然出现的。
具体复现步骤: 向通义千问提问“2004年7月至2013年8月共有几个月”。
1.2.2.3 Bug具体情况描述
向通义千问提供了一道计算题目,多次询问给出不同的结果,但均错误。
1.2.2.4 Bug分析
可能成因: 算法理解存在偏差,对问题的解析可能导致采用了不恰当的计算方法。
严重性: ⭐ ⭐
功能不完善,计算重复出错,体验感很差。
对于Bug的预期及改进建议:
预期正确结果:
(2004年7月1日至2013年8月31日)
建议:
- 扩充模型训练数据,引入更多类型的数学题库和相关教育资源;
- 将强大的数学引擎(如SymPy、Mathematica等)与通义千问相结合,使模型可以直接调用这些引擎来进行高精度和复杂的数学计算;
- 对模型进行针对性的微调和优化,让其在处理数学问题时,能够更准确地理解数学表达式的结构和含义,提高推理和演算能力;
- 利用强化学习的方式,根据用户的反馈不断调整和优化模型的数学计算策略,提高解答准确率。
1.2.3 结论
d) 好,不错
维度 | 子项 | 评分标准 | 得分 |
---|---|---|---|
内容生成质量 (30分) | 流畅性和连贯性 | 逻辑清晰、语句通顺 | 10 |
主题理解与创意 | 理解多种领域,有时偏差 | 8 | |
信息准确性 | 信息较为准确,出错纠正较快 | 8 | |
创新能力 (20分) | 主题生成能力 | 快速生成跨领域内容,有偏差 | 9 |
独特性与灵感激发 | 丰富素材,积极帮助 | 10 | |
合规性与价值观 (20分) | 遵守法规与道德 | 严格遵循,积极避免不良内容 | 10 |
传递正能量 | 积极健康形象 | 10 | |
用户体验 (20分) | 交互便捷性 | 提问字数限制 | 3 |
错误修正反应 | 知错但有效修正 | 9 | |
用户满意度 | 流畅性与创意,准确性问题 | 6 | |
稳定性与可靠性 (10分) | 一致性与准确度 | 内容重复与理解偏差 | 4 |
系统稳定性 | 推测常规稳定 | 4 | |
总分 | 91 |
第二部分 分析
2.1 开发时间估计
2.1.1 人员前提
团队人数6人左右,计算机大学毕业生,并有专业UI支持。
2.1.2 预估时间
文心一言
角色 | 任务 | 人数 | 预估时间 |
---|---|---|---|
项目经理 |
| 1 |
|
NLP/算法工程师 |
| 1 |
|
前端开发人员 |
| 1 |
|
后端开发人员 |
| 2 |
|
测试工程师 |
| 1 |
|
通义千问
角色 | 任务 | 人数 | 预估时间 |
---|---|---|---|
项目经理 |
| 1 |
|
NLP/算法工程师 |
| 1 |
|
前端开发人员 |
| 1 |
|
后端开发人员 |
| 2 |
|
测试工程师 |
| 1 |
|
2.2 同类产品对比排名
文心一言:
- 优势:
- 文心一言专注于写作创作领域,能够提供针对性的写作建议和优化;
- 文心一言支持根据特定场景和需求进行个性化定制,增强了其在多样化应用中的适用性。
- 劣势:
- 特定领域写作支持不足,写作风格较为单一;
- 文心一言需要依赖互联网来连接百度的服务器,实现语言模型和深度学习算法,所以存在一定的网络延迟。
通义千问:
- 优势:
- 对用户提问的问题回答流畅,响应速度极快,基本上可以做到实时对话;
- 采用的自适应学习算法能够根据用户反馈自动调整模型参数,所以对于一些错误回答纠正速度很快;
- 阿里云的生态资源丰富,能够为通义千问的应用提供强大的支持和拓展性。
- 劣势:
- 对于复杂问题的处理能力有限;
- 个性化与定制化需求满足度不够高。
综上,两者在同类型产品里特色和优势可能不那么突出,尤其是在中文场景的细腻度和文化适应性上。综合市场规模和用户知名度的考虑,对于文心一言、通义千问和其它同类型的对比排名如下:
- 通义千问
- 讯飞星火
- 文心一言
- kimi
2.3 软件工程方面的建议
文心一言:
- 扩展专业领域知识库,提高解答用户问题的质量;
- 增强个性化和多样性,开发更加灵活的个性化设置,允许用户根据偏好调整回复风格;
- 优化算法模型,提升处理任务时的响应速度和准确性;
- 提升处理大规模文本的能力。
通义千问:
- 简化集成与定制流程,为开发者提供更简便的API接口、文档和工具包,降低集成难度,特别是对于中小企业和个人开发者;
- 优化算法模型,使其可以在能正确解答基础数学模型问题的基础上,能够解答用户对于更深层次数学模型问题的提问;
- 深化用户反馈循环机制,建立更加主动的用户反馈收集和分析体系。
2.4 BUG存在的原因分析
- 对于文心一言的bug,我认为是开发团队具体的设计质量不高,在具体测试中能多次发现,文心一言不按照用户的要求回答问题或给出相应的绘画图片;
- 对于通义千问的bug,我认为是他的部分算法不够优化,以至于不能给出正确或者是最优的解答。
第三部分 建议和规划
3.1 市场概况
文心一言
- 市场大小:截至2023年底,文心一言的用户规模达到了7000万,且在此基础上,百度宣布文心一言的用户规模在之后的几个月内突破了1亿大关,这表明文心一言在市场上具有较快的增长速度和广泛的用户基础。
- 直接用户:比如那些直接使用文心一言服务的个体或组织,像通过应用程序接口(API)接入的开发者、使用包含文心一言技术的百度产品和服务的终端用户等。
- 潜在用户:涉及客户服务、内容创作、教育培训、数据分析、智能家居、健康管理等众多行业和领域。
通义千问
- 市场大小:考虑到阿里巴巴集团在电商、云计算、金融科技、物流等多个领域的领先地位,通义千问可以被嵌入到这些业务中,规模巨大。
- 直接用户:直接用户包括直接使用通义千问API的开发者、集成通义千问功能的企业、以及使用含有通义千问技术的终端应用的用户。
- 间接用户:涉及通义千问在创意文案、办公助理、学习助手、趣味生活等多个领域。
3.2 市场现状
- 市面上相对成熟的产品包括但不限于文心一言、通义千问、Kimi、讯飞星火;
文心一言:
- 定义:文心一言是由百度研发的全新一代知识增强大语言模型,属于文心大模型家族的一员,命名为ERNIE Bot。
- 优势:
- 文心一言专注于写作创作领域,能够提供针对性的写作建议和优化;
- 文心一言支持根据特定场景和需求进行个性化定制,增强了其在多样化应用中的适用性。
- 劣势:
- 特定领域写作支持不足,写作风格较为单一;
- 文心一言需要依赖互联网来连接百度的服务器,实现语言模型和深度学习算法,所以存在一定的网络延迟。
通义千问:
- 定义:通义千问是阿里云研发的对话机器人平台,采用基于Transformer的模型架构以及多任务学习等先进技术。
- 优势:
- 对用户提问的问题回答流畅,响应速度极快,基本上可以做到实时对话;
- 采用的自适应学习算法能够根据用户反馈自动调整模型参数,所以对于一些错误回答纠正速度很快;
- 阿里云的生态资源丰富,能够为通义千问的应用提供强大的支持和拓展性。
- 劣势:
- 对于复杂问题的处理能力有限;
- 个性化与定制化需求满足度不够高。
上述产品为竞争关系:
- 作为百度推出的知识增强大模型,文心一言以其深厚的中文处理能力和丰富的知识图谱为基础,致力于提供高质量的问答、创作辅助等服务。它在中文互联网市场有着广泛的用户基础,尤其在与百度搜索生态的深度融合方面展现出独特优势。
- 阿里云的通义千问凭借其强大的技术和阿里生态的支持,在多语言处理、自适应学习、以及商业应用方面表现出色。它能够满足从客服、智能助手到更复杂对话场景的需求,特别是在企业级应用和服务中,依托阿里集团的商业资源,通义千问能够快速对接市场需求,实现商业落地。
这个领域正处于成长阶段,随着用户对知识和思考的需求不断增长,类似产品的市场需求也在逐渐增加。
3.3 市场与产品生态
核心用户群特点:
- 学历与年龄: 覆盖了广泛的教育背景,从学生到专业人士,年龄层从青少年到中老年,对用户的教育水平没有严格限制。
- 专业与爱好: 包括但不限于科技爱好者、创作者(作家、自媒体人)、教育工作者、企业员工、研究人员、普通互联网用户等。
- 表面需求: 用户主要寻求快速、准确的信息查询、创意激发、写作辅助、日常对话交流、个性化内容生成等。
- 潜在需求: 深入的行业知识咨询、个性化学习辅导、情感交流与心理健康支持、商业决策辅助、多语言沟通等。
用户群体间的关系:
用户群体间存在紧密的关联,例如,创作者与读者可以通过平台分享和消费内容,有利用其相互作用二次构成特定用户生态的可能性。
产品生态构建:
- 子产品与相关产品关系: 文心一言作为百度AI生态的一部分,与百度的其他产品如搜索引擎、百度网盘、百度地图等存在协同作用。通义千问的子产品或相关产品(如多轮对话、文案创作、逻辑推理等)相互之间存在紧密联系,共同构建了一个综合性的AI服务平台。
- 二次构成产品生态可能性: 通过整合百度的多样化资源和服务,文心一言可以成为连接用户与多个应用的桥梁。而通义千问通过集成多语言支持与多模态理解功能,可以服务于跨国企业或跨文化交流的用户群体,形成全球化沟通的生态,有利用各个产品特性之间的相互关系二次构成产品生态的可能性
3.4 产品规划
为通义千问增加可以随机生成一套试卷和试卷答案,并提供word文档的功能。
3.4.1 功能需求分析
市场潜力: 现有的教育软件多集中在题库练习或在线课程,而能够自动生成整套试卷并提供答案的智能化工具相对较少,具有一定的市场空白。
技术可行性: 基于现有AI技术,结合教育大数据,实现题目的智能生成与难度适配是技术上可实现的。
用户体验优化: 提供Word文档下载功能,方便用户线下打印使用,满足多样化学习习惯,提升用户体验。
用户价值
便捷性: 用户无需手动组卷,节省时间。
个性化: 根据用户需求(年级、科目、难度)定制化生成试卷,满足个性化学习需求。
高效复习: 配套答案帮助即时反馈,加速学习循环。
资源丰富: 利用AI生成无限量的习题资源,避免题库枯竭。
3.4.2 产品NABCD分析
N(Need,需求): 教育领域中,教师和学生对高质量、个性化学习资源的需求日益增长。随机生成试卷及答案能够快速满足不同教学场景下的练习需求,减轻教师的工作负担,提高学生学习的针对性和效率。
A(Advantage, 优势): 智能匹配学习者水平,生成适合的题目难度,提升学习效率。
B(Benefit, 益处): 一站式解决方案,从题库构建到答案生成,再到文档导出,简化教师工作流程。
C(Competitive, 竞争力): 高度定制化选项,满足不同教学需求,形成独特竞争优势。
D(Delivery,推广):
- 目标用户定位:可以与学校、培训机构,特别是那些寻求数字化转型和提高教学效率的机构合作;
- 定制化推广活动:针对不同考试季节(如高考、四六级考试等),推出专题活动,如“模拟考月”、“高效复习挑战赛”,提供专项训练卷,增强用户粘性。
- 建立合作伙伴关系:与教育平台、教辅出版社、在线教育APP等建立合作关系,互相引流,拓宽用户基础。
3.4.3 团队配置与计划
角色 | 人数 | 职责概述 |
---|---|---|
后端开发 | 2人 | 负责题库管理系统、AI算法集成、Word文档生成接口开发。 |
前端开发 | 2人 | 负责用户界面设计、交互逻辑实现、试卷预览及导出功能。 |
数据分析师 | 1人 | 负责收集和分析教育数据,优化AI生成算法。 |
测试工程师 | 1人 | 负责软件的测试计划制定、执行及质量控制。 |
3.4.4 16周期详细规划
周期 | 主要任务 |
---|---|
1-2周 |
|
3-4周 |
|
5-6周 |
|
7-8周 |
|
9-10周 |
|
11-12周 |
|
13-14周 |
|
15周 |
|
16周 |
|