【机器学习记录随笔-基础篇】

【机器学习记录随笔-基础篇之数据集】



前言

【入门篇】我分享给大家一些基础内容。其中更是举例讲解了机器学习的相关简易内容。
今天开始【基础篇】。基础篇的内容会逐步给大家讲解机器学习内部的一些专业术语等含义,以及再完善一下整体流程。目前的计划是,每一章节都会讲一个知识点。不求多,但求讲的通透大家可以理解。希望大家一起学习,共同进步。

一、数据集是什么

就像是练习字体的本子对我们的作用一样,对于机器来说,数据集就是机器用来练习的数据。

一、一 数据集的定义

数据集的定义:一组数据的集合。
这个定义比较简单,所以我们来结合数据集来补充一下相关的场景。同时也会结合我们实际的案例来讲。
其实严格来讲。机器学习的数据集不单单是供机器来练习,一共分为训练集、验证集、测试集共三个。

一、二 为什么是三个

为什么是三个? 就像我们上学时一样。我们在最开始学习知识的时候,会做一些课后练习题。大部分的练习题都是有答案,如果没学好可以再学,然后就是每个月会有月考,用来阶段性的测试你知识的掌握程度,如果同样没学好,那可能是你知识点掌握的不扎实,依旧可以回去学习。最后就是每个学期的年终,用来验证你这一学年的知识积累程度。
因此 训练集(课后练习题或者书本上的内容)、验证集(月考或者模拟考)、测试集(期末考或者中考、高考)。等。
每一个的作用:就像上述案例一样,
训练集是为了让机器学习知识的,知识当然是越多越好。
验证集是为了测试机器学习的学习情况,看机器究竟有没有学到能力(这里可能会有人问,为什么不用训练集做测试啊?我再举个例子:就像我们学生时期有一些大神,书本知识背的滚瓜烂熟,但是用来做题就麻爪了,不知道什么时候该用什么公式等等。这里也就是这个意思)。
测试集是检验这个机器的准确度是否足够好,就像大学毕业的毕业答辩,要检查你的知识储备是否足够。如果不够,那可能就要回炉重造了。
(这里给大家补充一个以后才讲的知识:就像人类学习一样,有的时候我们是照着书本学,有的时候是完全靠自己去试错。
机器学习也分为两类:监督学习与无监督学习现阶段我们讲的内容都是监督学习。有感兴趣的可以搜索一下)。

一、三 如何挑选数据集以及有哪些注意事项

如何挑选数据集以及有哪些注意事项
1、就像我们人类在学习的时候一样,学习要从一而终。如果这边学点,那边学点,最终什么也学不会。
数据集也是。
我们在收集数据集的时候,切记来源必须统一。举例,就像我们收集照片做数据集时,确保照片的来源、格式等一定要统一。比如我们做照片判断男人女人的。如果我们最终的用户是亚洲人,那么请务必仅限用亚洲人的照片。如果多出一个白人或者黑人,都可能会导致我们的系统准确度永远都提不上去。
2、我们在收集数据集的时候,一般都是一次性收集所有数据,然后拆分成训练集、验证集以及测试集。那这个拆分比例是多少呢?如果数据量少的情况下,可以采用60% 、20%、20% 的这种拆法。如果数据量很大,可能超过几千万或更多。则比例可以改变成99%,0.5%,0.5%。(这里的拆法我并没有找到什么非常严格的证明,所以应该是大家的一些经验)
3、如果收集不到那么多数据,要怎么办?(这里我卖个关子,后续会有数据增强的章节讲解这里)

二、数据集长什么样子

其实数据集的目的是为了让机器使用,理论上什么格式都可以。只是为了方便使用,减少在读取数据方面的消耗,还是有一些特定的格式要用来使用的。
1、CSV格式
优点:对于小的数据集易于读取、处理。
缺点:对于大的数据集就GG了。
2、JSON格式
优点:格式简单,有层次结构。
缺点:对于大的数据集也GG了
3、HDF5格式
优点:这个是一种专门用来存储大量科学与工程数据的文件格式。搞笑数据压缩与读取。
缺点:但是要去专门学习这个相关的工具与编程技巧。
4、SQL格式
优点:安全、可控
缺点:要使用数据库sql方面的知识。
5、TXT格式
优点:纯文本简单,高度可读性与易于编写的特性。
缺点:不支持结构化数据,不支持复杂数据集处理,对于数字、日期等无法直接处理。
上述的数据格式,可能大家唯一对于HDF5的格式没有直观印象(原谅我,我这个是百度百科找的照片,当前这个机器上我没安装。。。)。
在这里插入图片描述

三、数据集有哪些获取方式

1、万物皆可淘。这里的淘指的是可以通过网络购买。
2、开源平台。现在有很多公司会将数据开源出来,供大家使用。
像我之前练习的时候,就会到网上随便找数据集。
例如:kaggle竞赛数据集
这个网站是我临时找的有数据集的网站
3、公司自身的数据。现在的数据对于公司来说就是资产,所以一般的公司都会把自己的数据完善保存下来。就可以供机器学习使用。

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值