评价指标参数和模型参数
文章平均质量分 57
关于评价指标,以及训练机器学习和深度学习参数的问题
DJ.马
生物医药-食品 反复横跳小丑
展开
-
[回归指标]相关性评价:R2、PCC(Pearson’s r )
皮尔逊相关系数是研究变量之间线性相关程度的量,R方和PCC是不同的指标。R方衡量x和y的接近程度,PCC衡量的是x和y的变化趋势是否相同。然而,由于它将每个单独的数据点与整体平均值进行比较,所以 Pearson’s r 只考虑直线。我们通常可以将两个变量之间的关系描绘成一个点云,分散在一条线的两侧。点云的分散度越大,数据越「嘈杂」,关系越弱。然而,这些变量之间的关系很显然是非随机的。幸运的是,我们有不同的相关性方法。在上面的图中,Pearson’s r 并没有显示研究对象的相关性。原创 2024-02-29 22:27:41 · 3068 阅读 · 0 评论 -
[分类指标]准确率、精确率、召回率、F1值、ROC和AUC、MCC马修相关系数
准确率(Accuracy):正确分类的样本个数占总样本个数,精确率(Precision)(查准率):预测正确的正例数据占预测为正例数据的比例,召回率(Recall )(查全率):预测为正确的正例数据占实际为正例数据的比例,F1 值(F1 score): 调和平均值,准确率、精确率、召回率、F1 值主要用于分类场景。准确率可以理解为预测正确的概率,其缺陷在于:当正负样本比例非常不均衡时,占比大的类别会影响准确率。原创 2024-02-29 16:44:12 · 1609 阅读 · 0 评论 -
【shap】使用shap画图时colorbar颜色条不能正常显示
参考上面的帖子,是matplotlib版本问题,我原来的版本是3.5.0,降级回3.4.3就正常了。下面,我的shap值全是蓝色的,没有红色。(注:蓝色是负贡献,红色是正贡献)原创 2024-02-20 19:55:12 · 547 阅读 · 0 评论 -
模型超参数寻优
参考某篇QSAR的sci论文设置。原创 2024-02-18 22:20:16 · 296 阅读 · 0 评论 -
关于怎么监督机器学习训练的进度
许多机器学习框架(例如TensorFlow和Keras)支持回调函数,它们可以在训练的不同阶段执行特定的操作。例如,可以使用回调函数记录每个epoch的性能指标,保存模型的检查点,动态调整学习率等。不知道大家有没有我这种烦恼,运行机器学习模型的时候,一直在哪运行,也不知道啥时候会结束,等也不是,不等也不是,又着急想看到结果。许多机器学习框架会在训练过程中输出日志信息,其中包含每个epoch的损失、准确率等指标。这些信息可以帮助你了解模型的训练进度。有些框架提供了用于可视化训练进度的进度条工具。原创 2024-02-18 22:12:08 · 531 阅读 · 1 评论 -
随机数选取经验
【代码】随机数选取经验。原创 2024-01-06 23:39:13 · 395 阅读 · 0 评论 -
热图分析(这个热力图代表的是不同描述符与pIC50之间的皮尔逊相关系数。)
相关系数的值通过色阶上的颜色来表示:负相关系数通常用冷色(如蓝色或紫色)表示,正相关系数通常用暖色(如红色或粉色)表示,接近零的相关系数通常用中性色(如白色或灰色)表示。例如,在这个热力图中,"Infective-50"与pIC50之间有一个0.46的相关系数,这是一个较强的正相关,表明"Infective-50"高的时候,pIC50也高。综上所述,这个热力图提供了一种快速可视化不同描述符与pIC50之间关系强度和方向的方法,但是具体的分析和结论需要依据研究的背景和附加的统计测试来做进一步的验证。原创 2024-01-06 01:45:11 · 2142 阅读 · 0 评论 -
个人总结:机器学习分类模型评估指标 准确率、精确率、召回率、F1等以及关联规则支持度、置信度
也就是说,曲线上的每一个点代表着,在某一阈值下,模型将大于该阈值的结构判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的真正率和假正率。A对B的提升度为:0.67/0.75 = 0.89 即以A作为前提,对B出现的概率有什么影响,如果提升度为1说明AB没有任何关联,如果小于1说明AB是互斥的,如果大于1,认为AB是有关联的,但在具体任务中认为提升度大于3才是值得认可的关联。理想的就是一个正方形。灵敏度求的是预测正确的正例与所有正例的比率,特异度求的是预测正确的负例与所有负例的比率。转载 2023-12-06 14:51:41 · 614 阅读 · 0 评论 -
关于支持向量机(SVM)的QSAR的结果的分析
图中的灰色部分代表了预测pIC50值与实测pIC50值之间的95%置信区间(confidence interval)。这个区间提供了一个预测误差的范围,意味着在统计上,我们有95%的把握认为真实值会落在这个区间内。具体来说,这个置信区间围绕着最佳拟合线(图中的虚线)而形成,显示了数据点在预测模型中的分散程度。简而言之,这个区间展示了模型预测的不确定性。原创 2023-12-06 12:26:33 · 589 阅读 · 0 评论 -
正则化的概念
在模型稀疏化时,L2只能降低每项特征的权重,而不能抹去,这时L1就可以使大部分模型参数为0,起到稀疏化的效果。再举一个理性的例子,点线(蓝色的···线)表示的是,在以圆圈表示的国家上训练的原始模型(没有正方形表示的国家),虚线(红色的—线)是我们在所有国家(圆圈和方形)上训练的第二个模型,实线是用与第一个模型相同的数据训练的模型,但是有一个正则化约束。说的再通俗点,就是模型的通用能力,训练的模型如果只能适用于某种特定的即为苛刻条件,那么这个模型可用的范围,所能承受的抗干扰性(术语叫做鲁棒性)就太差了…原创 2023-12-06 10:21:34 · 695 阅读 · 0 评论 -
10折交叉验证(10-fold Cross Validation)与留一法(Leave-One-Out)
这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。,就是把一个大的数据集分为 k kk 个小数据集,其中 k − 1 k-1k−1 个作为训练集,剩下的 1 11 个作为测试集,在训练和测试的时候依次选择训练集和它对应的测试集。,顾名思义,就是使 k 等于数据集中数据的个数,每次只使用一个作为测试集,剩下的全部作为训练集,这种方法得出的结果与训练整个测试集的期望值最为接近,但是成本过于庞大。这个问题可能是由于数据处理或代码逻辑上的错误导致的。原创 2023-12-05 16:13:19 · 8929 阅读 · 3 评论 -
关于随机数的设定和随机噪声
这里我们知道一点,如果只是发文章的话,可以挑取效果好的随机数,但是实际上我们要知道一点,如果模型受到随机数的影响较大,那只能说明模型不咋地。我们知道,加入随机数的目的,是让结果可重复性,可控。加入随机噪声的原因是提高鲁棒性,因为现实情况实际上是有噪声的(如实验测活的误差)。我们发现不加入随机噪声的情况,效果更差。原创 2023-12-04 05:52:34 · 519 阅读 · 0 评论 -
【评价指标分析方法】混淆矩阵(Confusion Matrix)分析
在预测分析中,混淆表格(有时候也称为混淆矩阵),是由false positives,falsenegatives,true positives和true negatives组成的两行两列的表格。准确率对于分类器的性能分析来说,并不是一个很好地衡量指标,因为如果数据集不平衡(每一类的数据样本数量相差太大),很可能会出现误导性的结果。在这个混淆矩阵中,实际有 8只猫,但是系统将其中3只预测成了狗;所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误,因为他们呈现在对角线外面。原创 2023-09-22 01:35:32 · 2270 阅读 · 0 评论 -
机器学习损失函数的理解
loss确定了要优化的目标?所以不是说user embedding和item embedding可以表示user和item的相似度,而是在loss的驱动下,user embedding和item embedding通过参数优化,最终的embedding向量形式,变成了能够表示user和item相似度的形式,一定要搞清楚先后关系。loss确定了函数的优化目标,在loss的指引下,模型参数优化的过程,就是让loss变小的过程,使得loss最小的模型参数,就是最优的模型参数。几个理解loss的视角。原创 2023-09-18 02:36:12 · 68 阅读 · 0 评论