机器学习知识点复习

在这里插入图片描述
在这里插入图片描述
决策树:从根节点开始一步步走到叶子节点(决策),所有的数据最终都会落到叶子节点,既可以做分类也可以做回归。
特征该怎么选就是由信息增益来做判断的 。
决策树剪枝策略:限制深度,叶子节点个数,叶子节点样本数,信息增益量等。
为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据(想象一下,如果树足够庞大,每个叶子节点不就一个数据了嘛)。
剪枝策略:预剪枝,后剪枝。
预剪枝:边建立决策树边进行剪枝的操作(更实用)。
后剪枝:当建立完决策树后来进行剪枝操作。
在这里插入图片描述

欠拟合是指模型不能在训练集上获得足够低的误差。换句换说,就是模型复杂度低,模型在训练集上就表现很差,没法学习到数据背后的规律。

欠拟合出现原因:模型复杂度过低、特征量过少

解决欠拟合的方法:1. 模型复杂化,对同一个算法复杂化。例如回归模型添加更多的高次项,增加决策树的深度,增加神经网络的隐藏层数和隐藏单元数等2. 增加更多的特征,使输入数据具有更强的表达能力3. 调整参数和超参数,超参数包括:学习率、学习衰减率、隐藏层数等5. 降低正则化约束,正则化约束是为了防止模型过拟合,如果模型压根不存在过拟合而是欠拟合了,那么就考虑是否降低正则化参数λ或者直接去除正则化项

过拟合是指训练误差和测试误差之间的差距太大。换句换说,就是模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。模型对训练集"死记硬背"(记住了不适用于测试集的训练集性质或特点),没有理解数据背后的规律,泛化能力差。

过拟合原因:1、建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则2、样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则3、假设的模型无法合理存在,或者说是假设成立的条件实际并不成立4、参数太多,模型复杂度过高。

解决过拟合的方法:1. 增加训练数据数,发生过拟合最常见的现象就是数据量太少而模型太复杂2. 使用正则化约束3. 减少特征数,欠拟合需要增加特征数,那么过拟合自然就要减少特征数。去除那些非共性特征,可以提高模型的泛化能力4. 调整参数和超参数5. 降低模型的复杂度。

生成方法是一种基于概率模型的方法,通过学习数据的概率分布来生成新的样本。常用的生成方法有朴素贝叶斯、高斯混合模型等。生成方法的基本思想是假设数据是从某个概率分布中生成的,然后通过估计概率分布的参数来生成新的样本。

判别方法是一种直接对输入数据进行分类或回归的方法,通过学习不同类别之间的边界来进行判别。常用的判别方法有支持向量机、逻辑回归、决策树、感知机、最大熵模型等。判别方法的基本思想是通过学习一个判别函数或决策边界来对数据进行分类。

生成方法的优点:1. 生成方法可以建模数据的分布,并且能够给出新的样本来自于这个分布的概率。这就意味着生成方法可以用于生成新的样本,扩充数据集。2. 由于生成方法需要建模整个数据分布,它们通常可以更好地处理缺失数据。3. 生成方法可以应用于多种任务,如分类、聚类、生成以及生成对抗网络(GANs)等。

生成方法的缺点:1. 生成方法要求对数据分布进行建模,这可能在某些情况下比较复杂或困难。2. 由于生成方法要建模整个数据分布,所以它们通常需要更多的参数和计算资源。3. 生成方法通常在处理大样本数据集时需要更长的训练时间和更高的计算成本。

判别方法的优点:1. 判别方法只关心将一个输入映射到相应的标签或类别,而不需要考虑数据的生成过程。因此,判别方法更加简单且计算效率高。2. 判别方法通常对数据分布的假设较少,更容易适用于不同类型的数据集。3. 判别方法通常具有更好的学习性能,尤其是在较小的数据集上。

判别方法的缺点:1. 判别方法不能为新的样本生成概率,因为它们只关注分类任务而非数据分布。2. 判别方法对于缺失数据的处理相对较差,因为它们不直接建模数据的分布。3. 判别方法通常无法生成新的样本来进行数据扩充。

综上所述,生成方法与判别方法各有优劣,选择合适的方法取决于具体的任务和数据集的特点。
在这里插入图片描述在这里插入图片描述
偏差: 度量了学习算法预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力
高偏差(欠拟合): 训练误差和验证误差十分接近,但很大
应对方法: 引入更多相关特征;采用多项式特征;减弱正则化
方差 度量了同样大小训练集的变动所导致的学习性能的变化。即刻画了数据扰动所造成的影响
高方差(过拟合): 训练误差较小,验证误差较大
应对方法: 增加训练样本;去除非主要特征;加强正则化
一般训练趋势:高偏差->高方差
模型复杂度并非越高越好,可能复杂度变高,效果反而更差

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
期末复习整理的,图片的内容都是别人的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值