西瓜书笔记1

1. 基本术语

数据集(data set):一组记录的集合。

示例(instance) /样本 (sample): 每条记录是关于一个事件或对象的描述。

属性(attribute) /特征 (feature):反映事件或对象在某方面的表现或性质的事项。

属性空间:属性张成的空间。

特征向量(feature vector):由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个特征向量。

训练数据(training data):训练过程中使用的数据称为"训练数据" (training data) ,其中每个样本称为一个训练样本" (training sample),训练样本组成的集合称为"训练集" (training set)。

假设(hypothesis):学得模型对应了关于数据的某种潜在的规律,因此亦称假设。

要建立这样的关于"预测" (prediction) 的模型,我们需获得训练样本的"结果"信息,例如" ((色泽:青绿;根蒂二蜷缩;敲声=浊响),好瓜)" .这里关于示例结果的信息,例如"好瓜",称为"标记" (label); 拥有了标记信息的示例,则称为"样例" (exampe)。

学习任务分为两类:

1. 预测值为连续值:回归(regression)

2. 预测值为离散值:分类(classification)

预测任务是希望通过对训练集{(X1' Y1) , (X2 , Y2) ,..., (Xm, Ym)} 进行学习,建立一个从输入空间X 到输出空间y 的映射f: X 叶y. 对二分类任务,通常令Y = {-1 ,十1} 或{O , l}; 对多分类任务, IYI >2; 对回归任务, Y= lR,lR为实数集.

泛化 (generalization) 能力:学得模型适用于新样本的能力,具有强泛化能力的模型能很好地适用于整个样本空间。

归纳(induction):从特殊到一般的"泛化" (generalization)过程,即从具体的事实归结出一般性规
律,机器学习中的学习过程。

演绎(deduction):从一般到特殊的"特化" (specializatio叫过程,即从基础原理推演出具体状况。

"奥卡姆剃刀" (Occam's razor):是一种常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个。

"没有免费的午餐"定理(No Free Lunch Theorem,简称NFL):总误差与学习算法无关,假设前提:所有"问题"出现的机会相同、或所有问题同等重要

2. 模型评估

2.1 留出法(hold-out)

留出法 (hold-out)直接将数据集D 划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=SUT,S\bigcapT。在S 上训练出模型后,用T 来评估其测试误差,作为对泛化误差的估计。

Eg:

假定D 包含1000 个样本,将其划分为8 包含700 个样本,T包含300 个样本,用S进行训练后,如果模型在T上有90 个样本分类错误,那么其错误率为(90/300) x 100% 口30%,相应的精度为1- 30% = 70%。

2.2 K倍交叉验证法 (cross validation)

先将数据集D 划分为k 个大小相似的互斥子集,每个子集Di 都尽可能保持数据分布的一致性,即从D 中通过分层采样得到. 然后,每次用k-1 个子集的并集作为训练集,剩余的那个子集作为测试集;这样就可获得k组训练/测试集,从而可进行k 次训练和测试,最终返回的是这k 个测试结果的均值。

 2.3 自助法(bootstrapping)

自助法 (bootstrapping)是一个比较好的解决方案,它直接以自助采样法(bootstrap sampling) 为基础。给定包含m 个样本的数据集D,我们对它进行采样产生数据集D': 每次随机从D 中挑选一个
样本7,将其拷贝放入DF' 然后再将该样本放回初始数据集D 中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m 次后?我们就得到了包含m个样本的数据集DF,这就是自助采样的结果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值