机器学习
文章平均质量分 77
NLP_wendi
这个作者很懒,什么都没留下…
展开
-
三种决策树算法
这一过程持续进行,直到满足停止条件,比如节点中的样本数量少于预设的阈值,或者节点的不纯度降至某个水平以下。(Information Gain),信息增益是基于熵(entropy)的概念,熵是用来衡量数据集中的不确定性或纯度的一个指标。为了克服这个问题,C4.5引入了信息增益比,这个指标考虑了特征的内在信息,并且对具有大量值的特征进行惩罚。剪枝:C4.5使用后剪枝方法来避免过拟合,这意味着它首先生成一个完整的树,然后删除那些对分类效果贡献不大的节点。(被称为复杂度参数),用于控制树的复杂度和拟合的程度。原创 2023-12-15 14:09:38 · 139 阅读 · 0 评论 -
逻辑回归的损失函数和目标函数
逻辑回归通常使用对数损失函数(Log Loss),也称为逻辑损失或交叉熵损失(Cross-Entropy Loss)。在训练过程中,通过梯度下降或其他优化算法最小化目标函数,从而找到使损失最小化的权重 ( w ) 和偏置 ( b ) 的值。通常目标函数也包括正则化项,如L1或L2正则化,以防止过拟合和改善模型的泛化能力,这部分被称为。在逻辑回归中,目标函数通常是最小化所有训练样本上的平均损失,也就是最小化。是线性模型的预测值,( w ) 是权重向量,( b ) 是偏置项。是正则化项的强度参数,原创 2023-12-14 17:18:20 · 422 阅读 · 0 评论 -
二分类模型ROC和KS曲线的绘制方法
【代码】二分类模型ROC和KS曲线的绘制方法。原创 2023-01-16 16:44:40 · 667 阅读 · 0 评论 -
AutoGluon --AWS开源的AutoML框架
只需要几行代码就可以轻松实现数据预处理、模型融合、择优参数以及模型选择等。autoGluon除了处理表格数据外,还可以处理图像和文本等多模态数据,最重要的是,你费尽心力调得参数可能比不上autoGluon的几行代码的模型性能。预测结果超过了90%的队伍,并且只用了几行代码,效果还是不错的!这篇论文介绍一下亚马逊开源的automl框架 –训练数据:train.csv。测试数据:test.csv。原创 2022-09-07 14:26:21 · 3329 阅读 · 0 评论 -
模型融合之Stacking and Blending
模型融合的基本思想就是集成单个模型以提升整体性能,也就是所说的。常见的模型融合方法有:Bagging、Boosting、Stacking、Blending。:该方法通常考虑的是,相互独立地并行学习这些弱学习器,并按照某种确定性的平均过程将它们组合起来。单个学习器之间独立学习,学习器之间无依赖,因此可以高效并行学习。模型代表有。:该方法通常考虑的也是。它以一种高度自适应的方法顺序地学习这些弱学习器(每个弱学习器都依赖于前面的学习器),并按照某种确定性的策略将它们组合起来。原创 2022-09-06 17:38:31 · 779 阅读 · 0 评论 -
When Does Label Smoothing Help?
原文链接:When Does Label Smoothing Help?Hinton老师的这篇paper,说明了标签平滑策略为什么是有效的。摘要原创 2022-04-13 15:58:47 · 2274 阅读 · 0 评论 -
Well-classified Examples are Underestimated in Classification with Deep NeuralNetworks
原文:Well-classified Examples are Underestimated in Classification with Deep Neural Networks摘要在深度分类模型中,一个约定俗成的处理技巧是:更关注那些分类效果不好的样本,忽略那些分类效果较好的样本,因为它们离决策边界比较远。举例来说,当用交叉熵损失训练模型时,似然较高的样本,也就是分类效果较好的样本,在反向传播中,贡献的梯度较小。然而,理论证明,这种常规的处理会阻碍模型的表达能力、持续优化以及边际收益。为了抵消这原创 2022-04-12 20:35:57 · 769 阅读 · 0 评论