![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 75
乄北城以北乀
相信自己有成为大佬的潜质(>y<)
展开
-
第九章 支持向量机
加一维度,线性不可分==>线性可分原创 2024-06-24 10:00:00 · 149 阅读 · 0 评论 -
第八章 基于树的方法
多数投票方法是根据每个自举样本的分类结果进行投票,然后选择票数最多的类别作为最终分类结果。红色类的票数:6 绿色类的票数:4多数投票结果是“Red”原创 2024-06-23 08:58:02 · 158 阅读 · 0 评论 -
第六章线性模型选择+正则化
正则化(Regularization)是指在机器学习和统计学中,通过引入额外的约束或惩罚项来防止模型过拟合的一种技术。过拟合是指模型在训练数据上表现很好,但在测试数据或新数据上表现较差的现象。正则化通过限制模型的复杂度,从而提高模型在未见数据上的泛化能力。在回归分析中,常见的正则化方法包括L1正则化(Lasso回归)和L2正则化(Ridge回归)原创 2024-06-23 08:34:39 · 988 阅读 · 1 评论 -
第五章重采样方法
(a) 第一个引导观测值不是原始样本中第j个观测值的概率: 每个观测值被选中的概率是1/n。因此,第j个观测值不被选中的概率是1 - 1/n。(b) 第二个引导观测值不是原始样本中第j个观测值的概率: 由于每次选择都是独立的,第二次选择和第一次选择相同,因此概率也是1 - 1/n。(f) 当n = 10,000时,第j个观测值在引导样本中的概率是多少?(e) 当n = 100时,第j个观测值在引导样本中的概率是多少?(d) 当n = 5时,第j个观测值在引导样本中的概率是多少?(b) 第二个引导观测值。原创 2024-06-22 17:55:21 · 791 阅读 · 0 评论 -
第四章分类问题
线性判别分析是一种用于分类和降维的技术。LDA假设各类别的协方差矩阵是相等的,因此其决策边界是线性的。二次判别分析是LDA的扩展,允许各类别有不同的协方差矩阵,因此其决策边界是二次的。原创 2024-06-22 17:24:36 · 1256 阅读 · 0 评论 -
第三章线性回归
Linger regression线性回归理论题原创 2024-06-18 20:10:47 · 273 阅读 · 0 评论 -
第二章统计学习
(a) 灵活的方法更好,因为数据量大,预测变量少。(b) 不灵活的方法更好,因为预测变量多,数据量少,避免过拟合。(c) 灵活的方法更好,因为可以捕捉非线性关系。(d) 不灵活的方法更好,因为高方差噪声会导致灵活方法过拟合。通过以上分析,可以看出灵活和不灵活的方法在不同情况下的优劣。什么是过拟合ChatGPT过拟合(Overfitting)是指在机器学习和统计模型中,模型过于复杂,以至于它在训练数据上表现非常好,但在新数据(测试数据)上表现很差的现象。原创 2024-06-18 17:45:54 · 617 阅读 · 0 评论