【Machine Learning】1 绪论

笔记主要来自:

1 《机器学习》 周志华

2   吴恩达(Andrew Ng)斯坦福机器学习公开课


1.1 引言

机器学习并没有所谓定义。

Tom Mitchell : A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

Tom Mitchell给出了一个形式化的定义:假设用P来评估计算机程序在某任务T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

1.2 基本术语

数据集:data set
训练中使用的数据(集)称为:training data(set)
从数据中学习模型/学习器的过程称为:learning/training
示例/样本:instance/sample
属性/特征:attribute/feature

样例:example
标记:label
......其中数据集是示例的集合;示例是中含有多个特征+特征值;样例=示例+标记;
 

1.3 有监督学习与无监督学习

根据训练数据是否拥有标记可分为supervised learning和unsupervised learning

即原有数据是否给定标记

1.3.1 有监督学习(用于回归与分类的情况):

1.3.2 无监督学习

               

如图,不像有监督学习,在这里我们无法看到每个实例的correct answer,每个实例在我们看来都是一样的。

给了一个数据集,并没有提前告知其中有几种类型或者什么类型,而是要通过聚类来找到这些类型。应用:

分离两个人重叠在一起的录音

1.3 假设空间

induction和deduction,前者是从特殊到一般的泛化(generalization)【从具体事实归结出一般性的规律】,后者是从一般到特殊的特化(specialization)【从一般性的原理推出具体情况】。

induction:广义:从样例中学习

                  狭义:概念学习,从训练数据中学得概念

【概念学习引出假设空间】【西瓜问题的假设空间】

1.4 归纳偏好

inductive bias

算法对产生的模型的偏好,算法在很庞大的假设空间中对假设进行选择。

如何选择?一般性的原则“Occam's razor”,即“若有多个假设与观察相一致,则选最简单的那个”

多条曲线与训练集一致,我们一般会选较简单的A(如下图),但它在测试集中是否更好?

答案是不一定的,B可能更好。如下图:

即使做了最聪明的算法作为A,但在实际问题中可能笨拙算法B的表现更好,这是完全可能出现的,对任何算法成立。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值