杜小满-CSDN博客

原创周志华深度森林deepforest原理解析，详细解释每一个细节，

这种集成学习的方法，不仅提高了模型的准确率，还增强了模型的稳定性和泛化能力。

2024-11-22 14:26:57 1360 1

原创周志华深度森林deep forest（deep-forest）最新可安装教程，仅需在pycharm中完成，超简单安装教程

没有pycharm的，在站内搜索安装教程即可。

2024-11-22 11:06:53 1258 1

原创不同分布的数据集的处理

将图集2中的100，000张图，加上图集1中的5，000张图，共105，000张图作为训练集，图集1中的2，500张图作为开发集，图集1中的2，500张图作为测试集。这种方案不好，这样的方案下，我们实际的训练目标是让模型更好地分辨出摄影爱好者拍摄的猫猫图，而不是我们一开始的目标。将图集1与图集2混合起来，随机取105，000张图片作为训练集，2，500张作为开发集，2，500张作为测试集。现在你要利用图集1和图集2来训练模型，你的目标是很好的。你只有10，000张这样的图片，我们称其为图集1。

2024-10-29 16:51:54 460

原创训练数据与测试数据分布不同时的处理

这一点是很容易被人忽略的。情况1：贝叶斯误差接近0，训练集误差为1%，训练-开发集误差为1.5%，开发集误差为10%，此时，可以确定，开发集误差主要是由数据不匹配造成的。情况3：贝叶斯误差接近0，训练集误差为10%，训练-开发集误差为11%，开发集误差为20%，此时，欠拟合与数据不匹配问题都较为突出。情况2：贝叶斯误差接近0，训练集误差为10%，训练-开发集误差为11%，开发集误差为12%，此时，误差的主要因素在于欠拟合。情况1：贝叶斯误差接近0，训练集误差为1%，开发集误差为10%，说明过拟合。

2024-10-24 20:17:27 603

原创误差分析（error analysis）和处理标记错误的数据

不同类型的错误标记数据，造成的影响是不同的，有些错误标记是随机性的，不会对模型有什么影响，我们可以不用管它，而且模型也能够“免疫”这些错误标记数据。问题有主要和次要，严重和轻微，解决问题要先解决重要的、严重的，即要抓住主要矛盾。比如一个问题我们分析后，有10%的提高空间，而其他问题的提高空间都不超过1%，那么，其他问题可以暂时先放一放，优先解决这个问题。1、误差分析，简言之，就是分析一个分类器，这个分类器的分类结果有一些错误结果，我们要分析其分类错误原因，然后去解决问题。这是只有做了误差分析才能明白的事。

2024-10-21 17:09:25 767

原创 Avoidable bias

在B情况中，模型训练水平与理论最优水平只有0.5%的差距，而模型的开发错误率与训练错误率相差2%，说明此时模型的拟合效果已经足够，重点在于降低方差，即提高模型的泛化能力。这个例子说明了人类的判断水平可以帮助我们假设贝叶斯最优，进而帮助我们决策，到底模型是欠拟合，需要该继续加强模型的拟合能力，还是模型已经过拟合了，需要提高模型的泛化能力。在这个判断图像是否为猫的例子中，第一行是人类判断的错误率，第二行是模型在训练集中的错误率，第三行是模型在开发集中的错误率。在A情况中，我们应该提高模型的泛化能力。

2024-10-15 19:58:51 327

原创划分训练集、开发集和测试集

一般来说，我们将数据集按照一定比例随机分成训练集、开发集和测试集。当然，这个比例并不是固定的，可以根据具体情况进行调整。

2024-10-15 18:16:36 487

原创 Satisficing and optimizing metric

在这个例子中，相关性得分是一个满足指标，保证了推荐的物品是相关的；点击率是一个优化指标，我们希望通过不断调整模型，来提高推荐物品的点击率。假设我们正在开发一个推荐系统的模型。

2024-10-15 18:07:34 332

原创 “Precision“ and “Recall“

一般来说，Precision和Recall是相互影响的。如果我们想要提高Precision，就可能降低Recall；如果我们想要提高Recall，就可能降低Precision。这是因为，提高模型的判断标准可以提高Precision，但是也会漏掉一些真正的正例，降低Recall。假设我们有一个模型，用来判断一封邮件是否是垃圾邮件。

2024-10-15 16:53:11 187

原创 Orthogonalization

想象一下一台老式电视，上面有很多旋钮，每个旋钮控制一个不同的图像属性，比如亮度、对比度、色调等等。当你调整一个旋钮时，它只影响一个属性，而不会影响其他属性。这就是正交化的概念。在机器学习中，正交化指的是将模型的各个方面进行分离，使得调整一个方面时，对其他方面的影响最小。这样，我们就可以更方便地对模型进行调优，找到最优的配置。

2024-10-15 16:32:09 471

原创 “bias“ and “variance“

想象你要用一条曲线拟合一组数据点。假设我们要预测房价。

2024-10-15 16:22:17 467

原创特征缩放的前因后果

想象一下，你有一组数据，其中包含了人的身高和体重两个特征。身高可能从1米到2米不等，而体重可能从40公斤到120公斤不等。这两个特征的数值范围差异很大。身高和体重，它们的量纲和数值范围差异很大。如果直接将这些数据输入到机器学习模型中，模型可能会更关注数值范围更大的特征，而忽略了数值范围较小的特征。特征缩放就是为了解决这个问题，它将不同特征的数值范围缩放到一个相似的范围内，使得每个特征对模型的影响力都比较均衡。假设我们有身高和体重两个特征，身高范围是[1, 2]，体重范围是[40, 120]。

2024-10-14 18:00:56 533

原创调和平均数

调和平均数

2024-10-11 15:34:04 2743

原创管道-过滤器体系结构风格

流水线将生产过程分成了一个个小的、独立的环节，每个环节只负责完成一个特定的任务。这样一来，每个环节都可以专注于自己的工作，提高了效率。而且，如果某个环节出了问题，只需要更换或修理这个环节，不会影响到整个生产线。“管道-过滤器”就是软件世界的流水线就是流水线上的每个工作环节，它负责对输入的数据进行加工处理，然后产生输出数据。就是连接各个工作环节的传送带，负责将数据从一个过滤器传递到下一个过滤器。

2024-10-07 21:37:18 2030

原创规则系统风格

想象一下，你正在玩一个角色扮演游戏。在这个游戏中，角色的行为是由一系列规则决定的。如果角色的健康值低于20，那么角色会自动使用恢复药水。如果角色遇到了敌人，那么角色会发起攻击。如果角色等级达到了10级，那么角色可以学习新的技能。这些“如果...那么...”的语句就是规则。游戏引擎会根据这些规则来判断角色应该做出什么行动。规则系统风格就是把这些规则应用到软件系统中。如果用户购买的商品总价超过100元，那么系统会自动赠送一张优惠券。如果用户是VIP会员，那么用户可以享受9折优惠。

2024-10-07 20:32:19 1131

原创黑板体系风格

为了解决以上的问题，大家设计软件时，逐渐有了一些共识，形成了一种风格，即黑板体系风格。：每个知识源专注于特定的标注规则，并独立地对输入的单词进行处理。：存储每个单词及其对应的词性标注，作为系统中共享的知识库。例如：自然语言处理、语音处理、模式识别、图像处理等。知识源（Knowledge Sources, KS）这种风格是这么解决以上的问题的？黑板（Blackboard）

2024-10-07 10:23:58 931 1