西瓜书笔记1

最新推荐文章于 2024-08-22 23:41:42 发布

weixin_41101196

最新推荐文章于 2024-08-22 23:41:42 发布

阅读量353

点赞数

分类专栏：西瓜书读书笔记文章标签：大数据机器学习

本文链接：https://blog.csdn.net/weixin_41101196/article/details/125750150

版权

西瓜书读书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1. 基本术语

数据集(data set)：一组记录的集合。

示例(instance) /样本 (sample): 每条记录是关于一个事件或对象的描述。

属性(attribute) /特征 (feature)：反映事件或对象在某方面的表现或性质的事项。

属性空间：属性张成的空间。

特征向量(feature vector)：由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个特征向量。

训练数据(training data)：训练过程中使用的数据称为"训练数据" (training data) ，其中每个样本称为一个训练样本" (training sample)，训练样本组成的集合称为"训练集" (training set)。

假设(hypothesis)：学得模型对应了关于数据的某种潜在的规律，因此亦称假设。

要建立这样的关于"预测" (prediction) 的模型，我们需获得训练样本的"结果"信息，例如" ((色泽:青绿;根蒂二蜷缩;敲声=浊响)，好瓜)" .这里关于示例结果的信息，例如"好瓜"，称为"标记" (label); 拥有了标记信息的示例，则称为"样例" (exampe)。

学习任务分为两类：

1. 预测值为连续值：回归（regression）

2. 预测值为离散值：分类（classification）

预测任务是希望通过对训练集{(X1' Y1) , (X2 , Y2) ,..., (Xm, Ym)} 进行学习，建立一个从输入空间X 到输出空间y 的映射f: X 叶y. 对二分类任务，通常令Y = {-1 ，十1} 或{O ， l}; 对多分类任务， IYI >2; 对回归任务， Y= lR，lR为实数集.

泛化 (generalization) 能力：学得模型适用于新样本的能力，具有强泛化能力的模型能很好地适用于整个样本空间。

归纳(induction)：从特殊到一般的"泛化" (generalization)过程，即从具体的事实归结出一般性规
律，机器学习中的学习过程。

演绎(deduction）：从一般到特殊的"特化" (specializatio叫过程，即从基础原理推演出具体状况。

"奥卡姆剃刀" (Occam's razor)：是一种常用的、自然科学研究中最基本的原则，即"若有多个假设与观察一致，则选最简单的那个。

"没有免费的午餐"定理(No Free Lunch Theorem，简称NFL)：总误差与学习算法无关，假设前提：所有"问题"出现的机会相同、或所有问题同等重要

2. 模型评估

2.1 留出法(hold-out)

留出法 (hold-out)直接将数据集D 划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，即D=SUT，S $\bigcap$ T。在S 上训练出模型后，用T 来评估其测试误差，作为对泛化误差的估计。

Eg:

假定D 包含1000 个样本，将其划分为8 包含700 个样本，T包含300 个样本，用S进行训练后，如果模型在T上有90 个样本分类错误，那么其错误率为(90/300) x 100% 口30%，相应的精度为1- 30% = 70%。

2.2 K倍交叉验证法 (cross validation)

先将数据集D 划分为k 个大小相似的互斥子集，每个子集Di 都尽可能保持数据分布的一致性，即从D 中通过分层采样得到. 然后，每次用k-1 个子集的并集作为训练集，剩余的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k 次训练和测试，最终返回的是这k 个测试结果的均值。

2.3 自助法(bootstrapping)

自助法 (bootstrapping)是一个比较好的解决方案，它直接以自助采样法(bootstrap sampling) 为基础。给定包含m 个样本的数据集D，我们对它进行采样产生数据集D': 每次随机从D 中挑选一个
样本7，将其拷贝放入DF' 然后再将该样本放回初始数据集D 中，使得该样本在下次采样时仍有可能被采到;这个过程重复执行m 次后?我们就得到了包含m个样本的数据集DF，这就是自助采样的结果。