【啃西瓜】绪论

定义

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在。因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即,“学习算法"(learninig algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如,判断一个西瓜是否是好瓜),模型会给我们提供相应的判断。如果说,计算机科学是研究关于”算法“的学问,那么类似的,机器学习是研究关于”学习算法“的学问。

试想理想情况:我们有无限的训练数据(这些数据包含了各种情况),那么,我们训练的模型就完美了。因为,没有任何新的情况,任何情况在我们的训练集中都已经出现了,被模型看到了。如果这些训练数据是线性可分的,只要一个很简单的线性模型就可以将他们分开。


一些专业术语
data set
instance/sample
attribute/feature
attribute value
attribute space/sample sapce/input sapce
feature vector
dimensionality
learning.training
training data
training sample
training set 
hypothesis
ground-truth
prediction
label
example
calssification/regression/clustering
supervised learning/unsupervised learning
generalization
distribution
independent and indentically distributed eg. i.i.d.


假设空间

现实问题中,我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的”假设集合“,称之”版本空间“。在版本空间中,各个假设,在训练集上是一致的,但是,在面临新样本时,可能产生不同的输出。

假设集合
假设空间集合

归纳偏好
机器学习在学习过程中对某种类型假设的偏好,称为”归纳偏好“。可看做是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或者”价值观“。
”奥卡姆剃刀“(Occam's razor):若有多个假设与观察一致,则选择最简单的那个。用于引导算法那确立”正确的“偏好。

”没有免费午餐“定理(NLF)

NLF

具体问题具体分析

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值