机器学习常见名词的通俗解释

鲁棒性

鲁棒性是指系统或设备在遇到不同的输入或环境变化时,能够保持正常工作,不受外界干扰的能力。它是一种衡量系统可靠性和稳定性的指标。

而在机器学习里,鲁棒性是指机器学习算法的能力,它可以处理输入数据的变化,而不会显著降低模型的性能。也就是说,即使输入数据出现噪声或异常,模型也可以有效地处理。

信息增益

用来衡量特征对数据集的重要性,用于衡量某个特征与目标变量之间的相关性。它表示在使用某个特征时,能够从数据中获得的信息量,从而帮助我们更好地理解数据,并且更好地预测数据。

香浓熵

香浓熵是一种信息增益度量方法,用来衡量一个特征值和一个类别之间的相关性。它可以帮助我们选择最有用的特征值,从而提高机器学习模型的准确性。

信息熵

香浓熵和信息熵是决策树学习中常用的两种不同的度量方法,它们都是用来衡量一个特征对于分类的重要性的。香浓熵是基于概率的,而信息熵是基于熵的,它们的主要区别在于计算方式不同。信息增益是一种基于信息熵的度量方法,它衡量的是特征值划分前后信息熵的变化,即在划分前后信息的减少程度。

过拟合和欠拟合

过拟合是指模型过分依赖训练数据,从而无法泛化到新的数据,从而导致预测结果不准确。欠拟合是指模型没有充分利用训练数据中的信息,从而无法达到期望的准确性。

泛化能力

指机器学习算法在解决新问题时的能力,即它在训练集中学习的知识能够应用到未见过的数据上。换句话说,泛化能力是指机器学习算法在未知数据上的表现能力,这是指机器学习算法在训练集上学习的知识能够应用到未见过的数据上,而不是只能处理训练集中的数据。

可解释性

知道结果是怎么来的,哪些特征的贡献比较大,能看到模型的决策过程是怎么样的。

黑盒

黑盒是指不提供内部模型的详细信息,只有输入和输出之间的关系,而没有提供内部算法的具体细节。因此,使用者无法完全理解算法的运作原理,只能通过输入和输出之间的关系来判断算法的性能。

噪声

噪声是指数据集里 不是有用信息的数据。它可以是由于测量误差、采样误差或其他外部因素引起的。它会影响机器学习模型的准确性,因此需要从数据集中去除噪声。

正则化

指在训练机器学习模型时,为了防止过拟合而采取的措施。可以减少参数的数量和使参数值更加稳定。

损失函数

用来衡量模型在训练数据上的预测值与真实值之间的差距。

下采样

可以减少训练数据集中的噪声,从而提高模型的准确性。它通过从训练数据集中删除一些样本来实现。

重采样

重采样是指通过改变数据集中样本的数量、分布或其他特征,以改善模型的性能的过程。它可以帮助模型更好地处理不平衡的数据集,从而提高模型的准确性和可靠性。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值