笔记——机器学习第一章

机器学习方法在大型数据库中的应用成为数据挖掘data mining。

模式识别应用:光学字符识别ORC,人脸识别,医学诊断,语音识别,生物测定学,从数据中学习规则(知识抽取),离群点检测。

回归:给定一定的属性信息,输出一个结果,并从数据中获取一个较符合的曲线。

过拟合是一定程度上过度拟合实验数值,误差很小,但可能造成实际数据与该规律想差很大。

监督学习,我们目标是学习从输入到输出的映射关系,其中输出的正确值已经有工作人员提供。


非监督学习中没有这样提供这样正确值的工作人员,只有输入数据,我们的目标是发现输入数据中的规律。

-----------------------------------------------

监督学习

噪声
噪声是数据中有害的异常。当噪声存在时,在正例和负例之间不存在简单的边界。需要有更大能力的假设类的复杂假设。噪声有以下几种解释:
1.记录的输入属性可能不准确,导致数据点在输入空间中移动。
2.标记的数据点可能有错误,可能将正例标记为负的,或相反。这种情况有时称为指导噪声。
可能存在没有考虑到的附加属性,而他们会影响实例的标记。这些附加属性可能是隐藏的或潜在的。因此是不可能观察的。这些被忽略的属性所造成的影响作为随机成分建模。

如果输入数据中确实存在错误标记的实例或噪声,并且实际的类确实就是矩形这样的简单模型,那么由于矩形具有较小的方差,并且较少地被单个实例所影响,所以尽管简单矩形可能导致训练集上较大的误差,但是它也是比曲线图形更好的分类器。给定类似的经验误差,我们说简单模型比复杂模型泛化能力更好。该原则就是著名的奥克姆剃刀,它说较简单的解释看上去更可信。

泛化问题,即我们的假设对不在训练集中的未来实例分类准确如何。给定一个接近于正例和负例边界的某个未来实例,不同的候选假设可能做出不同的预测。

模型选择与泛化
数据可能会拟合可能会发生欠拟合和过拟合。
我们可以引用三元权衡triple trade-off,由样本数据训练的学习算法中,存在以下3种因素之间的平衡:
1. 拟合数据假设的复杂度,即假设能力。
2. 训练数据的总量。
3. 在新的样本上的泛化误差。

如果我们访问训练集以外的数据,则我们就能度量假设的泛化能力,即他的归纳偏倚的质量。
所以把训练集分为两部分:一部分是训练集train(拟合一个假设)、剩下的作为验证集validation set,它用来检验假设的泛化能力。如果需要报告最佳模型的期望误差,我们需要第三个数据集--检验集test set(发布集),包含训练或验证阶段未使用过的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值