机器学习1—入门

1.1基本概念
数据集data set、样本sample、示例instance
特征或属性feature:反应某方面的表现或性质
属性值attribute value:属性上的取值
属性空间、样本空间或输入空间attribute space:属性张成的空间(例如某个物体的体积,密度,质量三个属性作为三个坐标轴,其张成的三维空间是属性空间)
特征向量feature vector:在属性空间中某一点所对应的坐标向量
样本的维数:即一个示例所包含的属性数量
训练数据training data
训练集training set:训练样本组成的集合
假设hypothesis:学得模型对应了关于数据的某种潜在的规律
真实、真相ground-truth:潜在的规律自身
机器学习的过程就是为了找出或逼近真相

分类——预测的对象为离散值(好、坏),涉及两个类别的为二分类任务binary classification,涉及多个类别的为多分类任务multi-class classification
回归——预测的对象为连续值(温度36.1,36.2)
聚类clustering——将训练集中的样本分成若干组,每组成为一个簇cluster,学习过程中的训练样本不拥有标记信息
监督学习、无监督学习的区别在于他们是否有标记信息
idd——独立同分布independent and identically distributed,假设样本空间中的全体样本服从一个“未知”分布,我们获得的每个样本都是独立地从这个分布上采样获得的。
1.2假设空间
版本空间version space——可能有多个假设与训练集一致,这多个假设集合成为版本空间
假设空间——由可能取值所形成的假设组成
1.3归纳偏好
归纳偏好——机器学习算法在学习过程中对于某种类型假设的偏好,称为归纳偏好。利用奥卡姆剃刀原则来引导算法确定正确的偏好。
1.4总结
学习算法的“好坏”必须与具体问题结合,脱离具体问题的“好坏”是没有意义的。学习算法的自身的归纳偏好与问题是否匹配,往往起到决定性作用。

习题
若表 1.1 只包含 1 和 4 两个样例,试给出相应的样本空间。已知色泽有两种取值,根蒂和敲声分别有三种取值。


样本空间即假设空间:因为颜色2种,根蒂和敲声各3种,再加上各自的通配(*,代表取何值无所谓),共有3x4x4=48种假设,再加上空集,一共49种取值。列出由编号1得出的取值:1.青+蜷+浊2~4.有一个属性通配5~7.有两个属性通配因此有版本空间中有7种取值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值