- 博客(5)
- 收藏
- 关注
原创 机器学习模型评估方法
通常,我们需要对学习器的泛化误差进行评估并进而做出选择。但是由于泛化误差无法直接得到,因此常用的方法都是用训练集上的一部分作为“”来测试学习器的泛化性能,并将得到的测试误差作为泛化误差的一种近似。为了实现这样的目的,产生了以下几种划分测试集的方法。
2024-07-23 14:22:07 1153
原创 归纳偏好、PAC和NFL定理
机器学习的算法在学习过程中对某种类型假设的偏好,称为。这种归纳偏好在样本数据集非均衡时可以得到明显的体现。例如GC数据集(German Credit Dataset)中,违约人数明显少于非违约人数。为了能使算法对于违约情况有很好的识别效果,用于训练的算法必然会带有一定的偏向性。任何一个有效的机器学习理论必然存在归纳偏好,这种归纳偏好可以视为一个学习算法对于假设选择的价值观念。对于自然科学,这种偏好通常是原则。对于奥卡姆剃刀原则,可用一句话加以概括为——“若非必要、勿增实体”。
2024-07-15 20:09:33 690
原创 机器学习——基本术语
训练过程所使用的样本称为“训练数据(training data)”,其中的每一个样本称为训练样本(training sample),这些训练样本共同组成了训练集(training set)。对于二分类问题,通常称其中一个为“正类(positive class)”,一个类为“反类(negative class)”。由标记所构成的空间,即所有标记的集合也称为“标记空间(label space)”。对于示例结果的信息,例如对于GC数据集中,个体是否违约这种示例结果的信息,称为“而这些拥有标记信息的示例,则称为“
2024-07-14 18:32:10 695
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人