机器学习西瓜书学习——绪论

在我们日常生活中,我们有时候会根据自己的生活经验,对即将发生的事进行预估。当我们有了足够多的经验,我们就可以对一些情况做出有效的决策。比如说“朝霞不出门 晚霞行千里”,就是根据我们生活的经验而得出的。机器学习,我的理解是根据所得到的经验与反馈,去训练出不同的模型,适用于不同的场景。就比如西瓜书中,传入不同的西瓜特征,以及是否是好瓜,让我们通过在这些特征去训练出一个模型,当遇见一个新的西瓜时,我们可以通过这个模型去预测是否是好瓜。

基础术语

在机器学习中数据集非常重要,有了数据集我们才可以训练模型。

首先就是数据集包括哪些东西,数据集是由许多不同的样本集合构成的,每一条数据也称为“示例(instance)”或者“样本(sample)”。

样本是对象在某方面的表现或者特征的事项,例如一个西瓜中的“色泽”“跟蒂”“敲声”都可以将其称为“属性(attribute)”或者“特征(feature)”。

属性中,比如一个西瓜色泽中的“青绿”“乌黑”,都可以将其称为属性值属性张成的空间成为“属性空间”“样本空间”或者“输入空间”

例如,将西瓜的“色泽”“跟蒂”“敲声”作为三个坐标轴,张成一个用于描述西瓜的样本空间,每个西瓜都可以在里面找到自己的位置。在空间中每个点都对应着一个坐标向量,因此也可以将其称为“特征向量(feature vector)”。

维数:在数据集D中,如果说有m个例示数据集由d个属性,每个示例则是样本空间的一个向量,d也被称为是样本的维数

在训练过程中使用的数据被称为“训练数据(training data)”,其中每一个样本被称为“训练样本(training sample)”,训练样本组合组成的集合称为"训练集"(training set)。在机器不断学习的过程中就是为了找出或接近真相,可以将学习成为”学习器"(learner)。.

要建立这样的关于“预测” (prediction) 的模型,我们需获得训练样本的“结果”信息,例 如 “((色泽= 青绿;根蒂= 蜷缩;敲声=浊响),好瓜)”. 这里关于示例结果的信息,例 如 “好瓜”,称 为 “标记" (label); 拥有了标记信息的示例,则 称 为 “样例" (example)。

如果预测是离散值,例 如 “好瓜” “坏瓜”,此类学习任务称为“分 类 " (classification); 若欲预测的是连续值,例如西瓜成熟度 0.95 、0.37,此 类 学 习 任 务 称 为 “回归” (regression)。

预测任务是希望通过对训练集 、 进行学习,建立一个从输入空间X到输出空间 y 的映射。

在建立模型之后使用其进行预测的过程称为“测试” (testing), 被预测的样本称为 “测试样本” (testing sample)

还可以把训练集中西瓜划分为若干组,每组称为一个“簇” (cluster), 这些自动形成的簇可能对应一些潜在的概念划分,这样的学习过程有助于我们了解数据内在的规律。

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习“ (supervised learning) “无监督学习" (unsupervised learning), 分类回归是前者的代表,而聚类则是后者的代表。

我们也希望学得的划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力,称 为 “泛 化 " (generalization) 能力.具有强泛化能力的模型能很好地适用于整个样本空间。

假设空间

布尔学习概念这是概念学习中最基本的,即对“是”“不是”这样的可表示为0/1布尔值得目标概念的学习。

 在这里我们用布尔表达式写出是布尔表达式:“好 瓜 ↔ ( 色 泽 = ? ) ⋀ ( 根 蒂 = ? ) ⋀ ( 敲 声 = ? ) 

我们会发现在第一行中,代表的就是好瓜,是我们已经见过的一个好瓜,我们要通过”泛化“来对没有见过的瓜进行判断。

加入色泽有“青绿” “乌黑” “浅白”这三种可能取值;我们还需考虑到,也 许 “色泽”无论取什么值都合适,我们用通配符 *来 表 示 ,例 如 “好瓜 ↔ (色泽= *) ⋀ (根蒂= 蜷缩) ⋀ (敲声= 浊响)”,即 “好瓜是根蒂蜷缩、敲声浊响的瓜,什么色泽都行”等其他情况。

 

上图中仅仅显示了一部分可能性,我们还可以有很多方式对这个假设空间进行搜索,在搜索过程中可以不断矫正与正例不一样的假设,最终获得与训练集一致的假设。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我还年轻、、

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值