【人工智能】千帆平台创建和使用我的数据集,为什么需要数据集,有什么作用

欢迎来到《小5讲堂》
大家好,我是全栈小5。
这是《千帆平台》系列文章,每篇文章将以博主理解的角度展开讲解,
特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识点的理解和掌握。
温馨提示:博主能力有限,理解水平有限,若有不对之处望指正!

在这里插入图片描述

数据集作用

千帆大模型数据集是一个包含大量数据的集合,这些数据用于训练人工智能模型,特别是大型的语言模型。在人工智能领域中,数据是模型的“燃料”,是模型能够学习和理解世界的基础。数据集的质量和数量对模型的性能有着至关重要的影响。
具体来说,千帆大模型数据集的作用主要有以下几点:

提供训练数据

数据集为模型训练提供了必要的输入数据。模型通过学习这些数据中的规律和模式,逐渐提高自身的处理能力和准确性。

扩大应用场景

通过包含各种不同类型和领域的数据,千帆大模型数据集使得模型能够适应更多的应用场景和任务,如文本生成、问答系统、情感分析等。

提升模型性能

使用大规模的数据集进行训练,有助于提升模型的性能,包括准确性、泛化能力等方面。

而之所以需要对模型进行训练,是因为模型在初始状态下并不具备任何处理和理解数据的能力。通过训练,模型可以逐渐学习到数据中的规律和模式,并根据这些规律和模式进行预测和决策。训练的过程就是对模型进行优化的过程,使得模型能够更好地适应实际应用场景。

总的来说,千帆大模型数据集为模型训练提供了必要的基础和条件,而训练则是让模型具备实际应用能力的关键步骤。

创建数据集

数据集名称

支持中文、英文、数字、下划线(_),50个字符以内,不能以下划线为开头
在这里插入图片描述
比如:贺岁数据集_data_24021701

数据集类型

在这里插入图片描述
1、Prompt+Response
在这里插入图片描述
2、Prompt+多Response排序
在这里插入图片描述
3、纯文本
在这里插入图片描述
4、Prompt集
单轮或多轮的文本对话数据,仅含提问,不含回答。适用于模型精调的RLHF强化学习训练。在这里插入图片描述
5、Prompt+图片
文生图对话数据,文本提问与图片回答一一对应。适用于模型精调的SFT文生图大模型训练。
在这里插入图片描述

FAQ挖掘

通过大模型服务从上传文件中自动挖掘 FAQ 问答对,以构建数据集。
在此数据类型【Prompt+Response】下有一个FAQ挖掘选项,貌似也是收费的
1、选择服务
目前提供两个服务,ERNIE-Bot-8K、ERNIE-Bot在这里插入图片描述
2、选择应用
在应用接入菜单那里添加,使用FAQ挖掘将会产生费用在这里插入图片描述

保存位置

1、对象存储BOS
使用对象存储BOS,享受更大存储空间,数据高效灵活管理。
2、平台共享存储
平台提供一定免费额度的共享存储空间。对于个人开发者和入门学习者,可以选择这个

导入方式

提供多种导入放肆,本地导入、BOS导入、分享链接导入在这里插入图片描述
温馨提示:因为是面向企业,所以大部分功能是收费的,个人开发者可以简单了解和体验下

相关文章

【人工智能】百度智能云千帆AppBuilder,快速构建您的专属AI原生应用

【人工智能】为什么说大模型会有「幻觉」问题,又如何去解决呢

总结:温故而知新,不同阶段重温知识点,会有不一样的认识和理解,博主将巩固一遍知识点,并以实践方式和大家分享,若能有所帮助和收获,这将是博主最大的创作动力和荣幸。也期待认识更多优秀新老博主。

  • 22
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全栈小5

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值