数据挖掘与数据仓库——分类

最新推荐文章于 2024-02-29 20:03:22 发布

布丁的自我修养

最新推荐文章于 2024-02-29 20:03:22 发布

阅读量1.2k

点赞数 1

分类专栏：数据挖掘与数据仓库文章标签：数据挖掘分类

本文链接：https://blog.csdn.net/budding0828/article/details/90311845

版权

本文深入探讨了分类算法，包括训练集与验证集的划分、泛化误差的偏差/方差分解、过拟合与欠拟合。讨论了判别模型与生成模型的选择，以及决策树、最近邻分类器、朴素贝叶斯和深度学习的基本原理。在深度学习部分，解释了三层前馈神经网络、激活函数和后向传播算法，并提到了深度网络的训练挑战与正则化技术。

摘要由CSDN通过智能技术生成

分类算法

划分法: 训练集与测试集
把样本划分成2个独立的数据集合, 如, 训练集 (2/3), 测试集(1/3)。
适用于大规模的数据样本。
交叉验证(Cross-validation)
把数据集合划分成k 个子样本；
使用k - 1 个子样本作为训练集，另一个作为测试样本—k-折交叉验证。
适用于中等规模的数据。
留一测试(Leave One Out， k = n)
适用于小规模数据。

以回归为例

在这里插入图片描述

过拟合：模型过于复杂（模型的表达力或capacity过高：例如神经网络的参数过多，决策树过深、过宽等等，而训练样本相对较少）。
考虑变量数大于方程数的线性方程组。
欠拟合：模型过于简单（模型的表达力或capacity不够）
考虑以线性模型去拟合非线性模型。

关于判别模型：
在这里插入图片描述

在这里插入图片描述

关于生成模型：

在这里插入图片描述

用哪种模型：

区分模型推导时更简单；
生成模型更加复杂一些：x比w往往高维，因此参数往往更多，训练困难；
生成模型反映了数据的实际产生过程，如果想把数据的产生过程集成到模型中，则应该考虑生成模型；(考虑如日中天的生成对抗网络Generative Adversarial Networks, GAN）
如果训练数据中有大量的遗失数据，则应