【Machine Learning】初识机器学习

前言

          博文重在记录博主的学习心得和过程,如有不对之处还望指正。

一、何为机器学习

          说的官方一点就是运用计算手段,利用经验来改善系统自身的性能,即:从数据中研究算法的科学学科。大白话:根据已有的数据,并基于算法和数据构建模型,最终对未来进行预测

二、基本常用概念

2.1 数据集(data set)

        数据集(Dataset)是一种由数据所组成的集合,每一列代表一个特定变量,每一行对应于该问题的某一成员,通常以表格形式(.csv)出现。

例如:

假如我们用3个特征,分别为色泽,根蒂,响声来描述西瓜的特点,并且拿到了基于这3个特征的10万条记录,其中一条记录的取值为:
色泽=光亮,根蒂=坚硬,响声=清亮
如果记录到.csv文件中,这个文件的结构可以记为: fruit[100000][3] ,这样一个二维数组,行数为10万,列数为3(因为有3个特征)。

2.2 属性(attribute)

        反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂,响声等,又称为特征(feature)。属性上的取值,如青绿,浊响等,称为属性值(attribute value)

2.3 样本空间(sample space)

        样本空间(sample space)又称为属性空间(attribute space),或输入空间。它可以理解为训练数据中实际出现的所有属性值构成的集合空间,如上文中提到的10万条西瓜记录,每条记录有3个属性取值,组成了一个fruit[100000][3] 的样本空间。和它有点类似的一个概念叫做假设空间(hypothetical space),它是理论上的所有可能属性值构成的集合空间。
        如果我们在购买某个股票时假定根据两个主要特征:股票经纪公司等级和股票最近3个月的涨幅情况,进而判断是否购买某只股。假定股票经纪公司等级取值为4种:A等,B等,C等,还要考虑到一种特殊取值 *,即公司等级取ABC中哪个值,这个股票我都要买(也就是说这个特征对于我是否买这只股是无关紧要的);股票最近3个月的涨幅情况取值为3种:涨,降,取值哪个都合适 *,那么根据这两个特征和特征取值,并且股票的标签y取值为买或不买,因此我们可以得到一个由12种类型的假设组成的假设空间,分别为:

  1. A等 涨
  2. A等 降
  3. A等 *

  1. B等 涨
  2. B等 降
  3. B等 *

  1. C等 涨
  2. C等 降
  3. C等 *

  1. *涨
  2. *降
  3. **

2.4 特征向量(feature vector)

        假如将色泽,根蒂,敲声三个属性作为三个坐标轴x1, x2, x3,每个西瓜对应一个空间点(一个坐标向量),每个这种示例称为一个特征向量,记为:(x1, x2, x3 )

2.5 维数(dimensionality)

        每个示例包含的属性个数,如上文中提到的描述西瓜的3个特征:色泽,根蒂,响声,这个10万行的数据集的维数是3,这是机器学习中需要理解的重要概念。

2.6 标记(label)

        关于示例结果的信息,比如判断一个西瓜是好瓜,那么这个西瓜便拥有了标记示例,这个西瓜便成了样例(example)。一般用 x i , y i x_{i},y_{i} xi,yi表示第 i i i个样例,其中 y i y_{i} yi是示例$x_{i}的标记。

2.7 学习(learning)

        从数据中学得模型的过程,又称为训练(training)。正如上文所示,10万条西瓜数据集,根据它的三个特征,和每条特征的标记,经过计算最后得到了一个 f f f,通过这个 f f f我们能预测第1万零一个西瓜是否是好瓜,这个过程被称为学习。

2.8 训练数据 (training data)

        训练过程中使用的数据,其中每个样本称为一个训练样本(training sample),训练样本组成的集合称为训练集(training set)。通过这些训练数据通过学习,最终得出一个 f f f,也就是我们学到的模型。
        与之相对应的是测试数据,为了测试通过训练数据得到的f准确度能高不高,我们特意预留出一些数据用来专门测试用,这部分数据就被称为测试数据。

2.9 回归(regression)

        如果预测的是连续值,例如预测西瓜的成熟度 ,它必然是个大于0的小数值,比如成熟度为0.9,0.75,抑或是根据房屋面积,使用年限两个特征预测某个房屋的价值,类似这种预测称为回归。回归有些不好理解,可以理解为拟合吧,根据已有数据集,得到一条曲线 f f f,然后再来一个 X m X_{m} Xm,带到 f f f中,得到 y m y_{m} ym

2.10 分类(classification)

        如果预测的是离散值,等于0,1,2,3等这类离散值,例如 好瓜,坏瓜,称此类学习任务为分类。如果分类的结果为两类,又称此分类为二分类,通常称其中一个为正类(positive class),另一个为反类(negative class)。它还有一个很奇怪的名字,叫逻辑回归,虽然是带着回归二字,实际是分类,注意此处。

2.11 聚类(clustering)

        没有标记的记录集,并且我们还想学习这类数据集,比如想从里头挖出点有用的东西来。然后我们根据某些特征和算法将训练中的西瓜分成若干组,自动形成了几簇,这些簇可能对应一些潜在的概念,比如浅色瓜,深色瓜,本地瓜,这些概念我们都是事先不知道的。聚类的常用的算法的资料有很多, 这里就不一一阐述了,感兴趣的可以自行百度奥。

2.12 说说监督(un-semi-supervised)

        说到监督,主要有:有监督学习,无监督学习,半监督学习 ,其中:
有监督学习:

用已知某种或某些特性的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知样本,此方法被称为有监督学习,是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。

无监督学习

与监督学习相比,无监督学习的训练集中没用认为的标注结果,在非监督的学习过程中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构

半监督学习

考虑如何利用少量的标注样本和大量的未标注的样本进行训练和分类的问题,是有监督学习和无监督学习的结合

2.13 泛化能力

        泛化能力(generalization),学习的模型适用于新样本的能力,是非常重要的能力。
       举例说明什么是泛化能力:就在我们上学那回,小明爱动脑筋,老师讲的题目不光会做,还能举一反三;小红学习很努力,上课认真听讲,老师布置的作业完成的非常好,但是这仅限于老师讲过的知识范畴内,因为小红不喜欢动脑筋,就是填鸭时地学习知识,老师讲什么,她就学什么,并且这些学得非常好。在一次数学竞赛中,考的题目都不是以前做过的题目,更别说有原题了,考试的结果,小明100,小红30。我们说小明的泛化能力很强,因为它能根据老师讲的东西,准确回答出以前老是讲过地类似题目,毕竟万变不离其宗,形式再不一样的题目还是围绕那30个知识点。但是,小红泛化能力很弱,它虽然平时老师讲的那些题目都会做,但过度地依赖老师讲的每一个细节,仅限于老师讲的那些东西,当来了一个形式上变化但是原理不变的题目时,她变得束手无策,答错了很多题。引起泛化能力不足的一个原因是过拟合,过拟合导致在测试集上变现非常好,但是在新来的数据集上表现非常差。

2.14 归纳偏好

        归纳偏好(inductive bias),机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法生成确定的学习结果,这也是机器学习中非常重要的概念。
举例:
        如果我们在购买某个股票时假定根据两个主要特征:股票经纪公司等级和股票最近3个月的涨幅情况,进而判断是否购买某只股。假定股票经纪公司等级取值为3种:A等,B等,C等,不要忘记还要考虑到一种特殊取值 *,即公司等级取ABC中哪个值,这个股票我都要买(也就是说这个特征对于我是否买这只股是无关紧要的);
        股票最近3个月的涨幅情况取值为2种:涨,降,取值哪个都合适 *。那么根据这两个特征和特征取值,并且股票的标签 y y y取值为买或不买,因此我们可以得到一个由12种类型的假设组成的假设空间,如下所示:

  1. A等 涨
  2. A等 降
  3. A等 *

  1. B等 涨
  2. B等 降
  3. B等 *

  1. C等 涨
  2. C等 降
  3. C等 *

  1. *涨
  2. *降
  3. **

根据由3条股票的记录组成的训练集,如下所示:
A等 涨 买
B等 涨 买
C等 降 不买
根据这3条训练记录,得出了其中两个与训练集一致的假设,这两个假设组成的空间称为样本空间(version space):

 1、  *   涨  买
 2、 C等  *   不买

以上两个假设都能使得3条训练集成立,也就是说只要涨我们就买股票,只要是C等,我们就不买股票,并且我们的机器学习算法对股票经纪公司等级和股票最近3个月的涨幅情况这两个特征没有任何偏好,如果没有归纳偏好,就会出现同一只股票的预测有时该买,有时不该买的情况。
解决的办法
1、要么制定特征的归纳偏好,如果偏向于股票经纪公司等级,觉得这个特征更重要,那么我们买。
2、要么进来更多的训练数据,消除12种假设中的11个,只留下唯一的一个。

三、参考链接

1、https://blog.csdn.net/Daycym/article/details/79905596

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贾继康

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值