为什么说朴素贝叶斯是低方差高偏差模型?

首先,假设你知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型,然后拿到测试集去用,效果好不好要根据测试集的错误率来衡量。但很多时候,我们只能假设测试集和训练集的是符合同一个数据分布的,但却拿不到真正的测试数据。这时候怎么在只看到训练错误率的情况下,去衡量测试错误率呢?

由于训练样本很少(至少不足够多),所以通过训练集得到的模型,总不是真正正确的。(就算在训练集上正确率100%,也不能说明它刻画了真实的数据分布,要知道刻画真实的数据分布才是我们的目的,而不是只刻画训练集的有限的数据点)。而且,实际中,训练样本往往还有一定的噪音误差,所以如果太追求在训练集上的完美而采用一个很复杂的模型,会使得模型把训练集里面的误差都当成了真实的数据分布特征,从而得到错误的数据分布估计。这样的话,到了真正的测试集上就错的一塌糊涂了(这种现象叫过拟合)。但是也不能用太简单的模型,否则在数据分布比较复杂的时候,模型就不足以刻画数据分布了(体现为连在训练集上的错误率都很高,这种现象较欠拟合)。过拟合表明采用的模型比真实的数据分布更复杂,而欠拟合表示采用的模型比真实的数据分布要简单。

在统计学习框架下,大家刻画模型复杂度的时候,有这么个观点,认为Error = Bias + Variance。这里的Error大概可以理解为模型的预测错误率,是有两部分组成的,一部分是由于模型太简单而带来的估计不准确的部分(Bias),另一部分是由于模型太复杂而带来的更大的变化空间和不确定性(Variance)。

所以,这样就容易分析朴素贝叶斯了。它简单的假设了各个数据之间是无关的,是一个被严重简化了的模型。所以,对于这样一个简单模型,大部分场合都会Bias部分大于Variance部分,也就是说高偏差而低方差。

在实际中,为了让Error尽量小,我们在选择模型的时候需要平衡Bias和Variance所占的比例,也就是平衡over-fitting和under-fitting。

为什么说朴素贝叶斯是高偏差低方差?——格林深瞳http://t.cn/R25fZeB

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 答:要提升分类模型准确率,首先可以尝试调整模型参数,比如改变神经网络的结构、学习率或者正则化参数;其次,可以使用更多的训练数据和更复杂的网络结构;此外,也可以尝试使用集成学习方法,比如梯度提升树(GBM)、随机森林(RF)或者深度学习(DL)。 ### 回答2: 提升分类模型准确率有以下几个方法: 1. 数据清洗和预处理:对数据进行清洗,去除噪声、重复项以及缺失值,并进行适当的数据预处理工作,如标准化、归一化、特征选择等,以便提数据的质量和可用性。 2. 特征工程:通过对数据集进行特征提取和转换,增加有代表性且与目标变量相关的特征,以便模型更好地理解和分类数据。 3. 模型选择和调参:尝试不同的分类模型,如逻辑回归、决策树、支持向量机等,并进行适当的参数调整,以找到最优的模型和参数组合。 4. 集成学习:通过组合多个分类器的预测结果,如投票法、堆叠法等,可以提模型的准确性和鲁棒性。 5. 交叉验证:使用交叉验证方法评估模型的性能和泛化能力,防止模型过拟合或欠拟合,并选择最佳模型。 6. 数据扩增:通过数据扩增技术,如数据增强、生成合成数据等,增加样本的多样性和数量,以提模型对各种情况的泛化能力。 7. 模型集成:利用多个不同模型的组合,如深度学习与传统机器学习模型的结合,可以提模型的准确率。 8. 模型调优:不断调整模型的超参数,如学习率、正则化项等,通过反复验证和调整,寻找最优的模型性能。 9. 错误分析和优化:对模型产生的错误样本进行详细分析和理解,找出原因并进行相应的模型优化,以提升模型准确率。 10. 数据集平衡处理:对不平衡的数据集进行平衡处理,如欠采样、过采样或者结合两者的方法,以提对少数类别的分类效果。 通过以上方法的综合运用,可以有效提升分类模型的准确率。但需要注意的是,具体的方法选择和实施应根据具体问题和数据集的特点来决定。 ### 回答3: 提升分类模型准确率的方法有很多,以下是几个常见的策略: 1. 数据预处理:对数据进行预处理是提升分类模型准确率的关键步骤之一。可以进行特征选择、特征缩放、数据清洗等操作,以去除噪声和冗余信息,同时提模型对关键特征的学习能力。 2. 特征工程:通过创造新的特征或者组合已有的特征,可以提分类模型的准确率。特征工程可以依赖于领域知识,通过对特征进行变换、聚合或者生成新的特征,提升模型对数据的表达能力。 3. 模型选择:选择适合问题的分类模型也是提准确率的重要因素。需要根据问题的特点和数据的分布来选择合适的算法,比如朴素贝叶斯、支持向量机、决策树或者神经网络等。不同的算法可能对不同类型的数据具有不同的适应性。 4. 调参优化:调参可以进一步提分类模型的准确率。常见的方法包括网格搜索、随机搜索、交叉验证等,通过寻找最优的超参数组合,提模型的泛化能力和准确率。 5. 模型集成:通过将多个分类模型的预测结果进行集成,可以提模型的准确率。常用的集成方法有投票、平均、堆叠等。通过结合多个模型的预测结果,可以降模型偏差方差,提整体准确率。 6. 数据扩增:当数据量有限时,可以通过数据扩增的方式增加训练样本,提模型的泛化能力。数据扩增可以通过旋转、翻转、平移、添加噪声等方式进行,使模型能够更好地学习数据的不变性和泛化能力。 综上所述,通过数据预处理、特征工程、模型选择、调参优化、模型集成和数据扩增等方法的综合应用,可以有效地提升分类模型的准确率。同时,准确率的提也需要结合具体的问题和数据,不同的问题可能需要采用不同的策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值