自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 机器学习模型评估方法

通常,我们需要对学习器的泛化误差进行评估并进而做出选择。但是由于泛化误差无法直接得到,因此常用的方法都是用训练集上的一部分作为“”来测试学习器的泛化性能,并将得到的测试误差作为泛化误差的一种近似。为了实现这样的目的,产生了以下几种划分测试集的方法。

2024-07-23 14:22:07 1153

原创 使用KNN对鸢尾花数据集进行分类

使用KNN算法对鸢尾花数据集进行分类

2024-07-19 17:26:07 598

原创 归纳偏好、PAC和NFL定理

机器学习的算法在学习过程中对某种类型假设的偏好,称为。这种归纳偏好在样本数据集非均衡时可以得到明显的体现。例如GC数据集(German Credit Dataset)中,违约人数明显少于非违约人数。为了能使算法对于违约情况有很好的识别效果,用于训练的算法必然会带有一定的偏向性。任何一个有效的机器学习理论必然存在归纳偏好,这种归纳偏好可以视为一个学习算法对于假设选择的价值观念。对于自然科学,这种偏好通常是原则。对于奥卡姆剃刀原则,可用一句话加以概括为——“若非必要、勿增实体”。

2024-07-15 20:09:33 690

原创 机器学习——基本术语

训练过程所使用的样本称为“训练数据(training data)”,其中的每一个样本称为训练样本(training sample),这些训练样本共同组成了训练集(training set)。对于二分类问题,通常称其中一个为“正类(positive class)”,一个类为“反类(negative class)”。由标记所构成的空间,即所有标记的集合也称为“标记空间(label space)”。对于示例结果的信息,例如对于GC数据集中,个体是否违约这种示例结果的信息,称为“而这些拥有标记信息的示例,则称为“

2024-07-14 18:32:10 695

原创 数值型属性(一元)

均值是某一随机变量的期望值,反映了X分布的位置或集中趋势。

2024-07-01 12:22:08 717 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除