2024软件学院创新项目实训(2)--数据集知识学习

在本项目中负责数据集的部分,本篇博客对数据集的知识进行学习和了解,为后续工作做准备。

数据集又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

数据集的相关定义比较简单,在机器学习和大模型等领域广泛使用,并且它为数据可视化提供了极大的便利,但是在本项目中,对考研政治题的数据可视化是没有必要的, 所以我们着眼于关于数据集的应用,通过观察分析那些出色的数据集,来构思我们项目需要的数据集应该如何产生。

数据集的种类有很多,文本,表格,图像等等,面对不同领域的应用,需要的数据集也很不一样。

这是世界银行的开放数据,该平台提供 Open Data Catalog,世界发展指数,教育指数等几个工具。对其进行浏览。

World Bank Open Data | DataWorld Bank Open Data from The World Bank: Dataicon-default.png?t=N7T8http://data.worldbank.org/

可以发现,此数据集页面简洁美观,数据详细,数据可视化甚至可以自定义,分类排序功能完备。

而我们的数据集是供大模型学习的文本数据集,不需要数据可视化,因此应该着眼于数据的质量上,那么如何提高数据集的质量呢?

数据的一组固有属性满足数据消费者要求的程度。

1)数据固有属性

  • 真实性:即数据是客观世界的真实反映(使用市面上主流的肖四肖八及历年真题)
  • 及时性:即数据是随着变化及时更新的(题目为近几年)
  • 相关性:即数据是数据消费者关注和需要的(和考研政治相关)

2)高质量数据满足要求

  • 可得的,当数据消费者需要时能够获取到;(百度文库和网盘等途径)
  • 及时的,当需要时,数据获得且是及时更新的;(同上)
  • 完整的,数据是完整没有遗漏的;(尽量将题目全部收录)
  • 安全的,数据是安全的,避免非授权的访问和操控;(数据存储在本地)
  • 正确的,数据是现实世界的真实反映。(图书管理方保证)

保证了数据的质量后,便要考虑数据集的格式,常见的数据集格式有很多:

YOLO数据集格式的出现主要是为了训练YOLO模型,其文件格式没有固定的要求,因为可以通过修改模型的配置文件进行数据加载,唯一需要注意的是YOLO数据集的标注格式是将目标框的位置信息进行归一化处理。

XML扩展标记语言 ,是一种常用的标记语言,用于标记电子文件使其具有结构性,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。

JSON全称JavaScaript对象表示法(JavaScript Object Notation),是存储和交换文本信息的语法。具有文本量更小、更快和更易解析的特点。

COCO,是一个大规模的,适用于目标检测,图像分割,Image Captioning任务的数据集,其标注格式是最常用的几种格式之一。

上述数据集之间可以相互转化。

有了这些前置知识,对构建我们的数据集有了一个大体的规划,在后面的文章会更新我们如何寻找数据,生成数据集。

  • 41
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值