评价指标
文章平均质量分 73
凝眸伏笔
纵然伤心也不要愁眉不展,因为你不知道谁会爱上你的笑容。
展开
-
quantile损失函数
不同于传统的均方误差(MSE)损失,分位数损失能够捕捉到分布的非对称性,特别是在处理具有非均匀误差分布的数据时。损失函数是一种用于回归问题的损失函数,也称为分位数损失函数。在这个上下文中,它标识了一种特定类型的目标函数,通常用于训练回归模型以预测某个分布的条件分位数。(这通常表示中位数),分位数损失函数就成为了绝对误差损失函数,使得损失对预测值的高估和低估是对称的。总的来说,分位数损失函数是回归问题中对模型的预测分布进行微调的有效方法,尤其适用于预测值的分布不均匀时。原创 2024-06-27 08:00:00 · 271 阅读 · 0 评论 -
模型评估指标pcoc
今天看到一个广告的精排和重排的文章,里面有了一个pcoc的指标,跟auc并排,这个指标,第一次见,查查相关资料,记录下笔记。众所周知,在推荐系统中,很多情况下,我们的点击率通常会被错误的估计(通常会被高估),所以需要进行校准。先说下业务背景随着深度学习技术的发展,预估模型在过去几年中也经历了快速的迭代,不断向更庞大、更精细、更准确的方向演进。但是预估模型真的变得更准确了吗?不失一般性,我们以计算广告中的点击率预估模型为例,思考以下几个问题:1)点击率是指“用户在某个时刻对曝光广告进行点击的概率”原创 2024-05-20 22:31:09 · 2006 阅读 · 0 评论 -
MAE vs RMSE 如何通俗的比较两个度量
平均绝对误差MAE(mean absolute error) 和均方根误差 RMSE(root mean squared error)是衡量变量精度的两个最常用的指标,同时也是机器学习中评价模型的两把重要标尺。那两者之间的差异在哪里?它对我们的生活有什么启示?平均绝对误差MAE(mean absolute error)是绝对误差的平均值,它其实是更一般形式的误差平均值。因为如果误差是[-1,0,1],平均值就是0,但这并不意味之系统不存在误差,只是正负相互抵消了,因此我们要加上绝对值。它的定义表达式为: 换原创 2022-12-07 15:28:45 · 1730 阅读 · 0 评论 -
IV (information value)信息价值
IV 全拼 information value, 即信息价值,是衡量特征对于模型预测能力的指标,常用于入模训练前的特征筛选的参考依据。IV 可由 WOE 计算得到:整个特征的 IV 值则为每段 IV 值之和,可得:当特征的 IV 值越大,该特征的信息价值就越大,对于判断客户好坏的贡献越大,这样的特征越适合入模。我们通常以 IV 来作为判断特征对于模型的预测能力的指标,因为 WOE 有正负值,而 IV 只会是正值。最重要的是,WOE 值没有体现出当前分段的个体数在总体数量中的比例,举个例子,若某个分段的 WO原创 2022-12-06 00:06:29 · 2156 阅读 · 1 评论 -
WOE(Weight of Evidence)证据权重
WOE 全拼 Weight of Evidence,即证据权重,用于风险评估、授信评分卡等。 i表示第i分段。也可转换后得到.从上公式可知,WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大,差异越大,好用户的可能性越大。同时 WOE 变换常应用于特征工程,当我们对某些特征变量进行等频或等距等分箱后发现,发现每级分段 WOE 不满足单调性时(大部分为离散型变量),进行 WOE 变换,即采用对应每分段的 WOE 值替换掉特征原始值,此时该原创 2022-12-06 00:02:14 · 1554 阅读 · 0 评论 -
区分度评估指标-KS
KS指标来评估模型的区分度(discrimination),风控场景常用指标之一。本文将从区分度的概念、KS的计算方法、业务指导意义、几何解释、数学思想等多个维度展开分析,以期对KS指标有更为深入的理解认知。在探索性数据分析(EDA)中,若想大致判断自变量x对于因变量y有没有区分度,我们常会分正负样本群体来观察该变量的分布差异,如图1所示。那么,如何判断自变量是有用的?直观理解,如果这两个分布的重叠部分越小,代表正负样本的差异性越大,自变量就能把正负样本更好地区分开。 图 1 - 正负样本变量分布差异对比K原创 2022-12-05 23:51:41 · 4664 阅读 · 0 评论 -
AUC的两种计算方式
推荐 搜索场景下的auc理解_凝眸伏笔的博客-CSDN博客_搜索auc随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。TPRate的意义是所有真实类别为1的样本中,预测类别为1的比例。:真正率FPRate的意义是所有真实类别为0的样本中,预测类别为1的比例。:假正率AUC的优势:AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。...原创 2022-08-02 21:31:00 · 23071 阅读 · 1 评论 -
推荐 搜索场景下的auc理解
看到一篇写的比较好的博客,这摘抄理解下,对其中的一些内容进行了补充说明,水平有限,欢迎指出错误。在互联网的排序业务中,比如搜索、推荐、广告等,AUC(Area under the Curve of ROC)是一个非常常见的评估指标。本文先提出以下几个问题,带着问题往下读。 AUC有几种理解? AUC的什么特性让它如此受欢迎? AUC的值和什么有关,多高是高? AUC提高了是否代表线上指标会提高? 有没有更好的指标替代AUC? 1.AUC有几种理解?原创 2021-08-24 22:02:17 · 1291 阅读 · 0 评论 -
【推荐搜索评价指标二】MAP-概念-原理-推导-代码
引入AP or MAP (Mean average precision)的背景平时大家多用准确率和召回率衡量模型效果。但是,准确率和召回率都只能衡量检索性能的一个方面,最理想的情况肯定是准确率和召回率都比较高。那么如何找到准确率和召回率的平衡点呢?AP来了。AP是什么?AP如何计算?首先说下AP、MAP的定义。(1)Average precision(AveP):平均准确率当我们想提高召回率的时候,肯定会影响准确率,所以可以把准确率看做是召回率的函数,即:P=f(R),也就是随着召回率从原创 2021-05-12 23:40:24 · 1393 阅读 · 0 评论 -
sklearn(十一)计算混淆矩阵:confusion_matrix和multilabel_confusion_matrix
1.混淆矩阵confusion_matrix适用于二分类、多分类。每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量。1.分类模型之混淆矩阵: 每一行和每一列分别对应样本输出中的每一个类别,行表示实际类别,列表示预测类别。 A类别 B类别 C类别 A类别 5 0 0 B类别 0原创 2021-04-19 23:01:21 · 11840 阅读 · 3 评论 -
【LM】(八)语言模型评价指标——困惑度Perplexity原理及代码
0.语言模型语言模型(Language Model,LM),基于统计的语言模型,给出一句话的前k个词,预测第k+1个词,即求第k+1个词出现的概率p(xk+1|x1,x2,...,xk)。在深度网络中,比如bert,可以词前后的内容,预测当前词,类似做完形填空。1.什么是困惑度在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。(应该是比较两者在预测样本上的优劣)低困惑度的概率分布模型或概率模型能更好地预测样本。原创 2021-01-21 22:10:22 · 21262 阅读 · 2 评论 -
【NLG】(七)文本生成评价指标—— NIST原理及代码示例
前奏:【NLG】(一)文本生成评价指标——BLEU原理及代码示例【NLG】(二)文本生成评价指标—— METEOR原理及代码示例【NLG】(三)文本生成评价指标—— ENTROPY原理及代码示例【NLG】(四)文本生成评价指标—— diversity原理及代码示例【NLG】(五)文本生成评价指标—— kl_divergence原理及代码示例【NLG】(六)文本生成评价指标—— ROUGE原理及代码示例1.NIST原理NIST(National Institute of sta原创 2021-01-11 08:43:31 · 2393 阅读 · 0 评论 -
【NLG】(六)文本生成评价指标—— ROUGE原理及代码示例
前奏:【NLG】(一)文本生成评价指标——BLEU原理及代码示例【NLG】(二)文本生成评价指标—— METEOR原理及代码示例【NLG】(三)文本生成评价指标—— ENTROPY原理及代码示例【NLG】(四)文本生成评价指标—— diversity原理及代码示例【NLG】(五)文本生成评价指标—— kl_divergence原理及代码示例1.ROUGE原理2.优缺点3.如何算ROUGE...原创 2021-01-10 23:48:09 · 7792 阅读 · 0 评论 -
【NLG】(五)文本生成评价指标—— kl_divergence原理及代码示例
前奏:【NLG】(一)文本生成评价指标——BLEU原理及代码示例【NLG】(二)文本生成评价指标—— METEOR原理及代码示例【NLG】(三)文本生成评价指标—— ENTROPY原理及代码示例【NLG】(四)文本生成评价指标—— diversity原理及代码示例1.kl_divergence原理2.优缺点3.如何算kl_divergence...原创 2021-01-10 23:46:55 · 1274 阅读 · 1 评论 -
【NLG】(四)文本生成评价指标—— diversity原理及代码示例
前奏:【NLG】(一)文本生成评价指标——BLEU原理及代码示例【NLG】(二)文本生成评价指标—— METEOR原理及代码示例【NLG】(三)文本生成评价指标—— ENTROPY原理及代码示例1.diversity2.优缺点3.如何算diversity...原创 2021-01-10 23:45:41 · 2238 阅读 · 1 评论 -
【NLG】(三)文本生成评价指标—— ENTROPY原理及代码示例
前奏:【NLG】(一)文本生成评价指标——BLEU原理及代码示例【NLG】(二)文本生成评价指标—— METEOR原理及代码示例1.ENTROPY原理2.优缺点3.如何算ENTROPY原创 2021-01-10 23:44:17 · 1364 阅读 · 1 评论 -
【NLG】(二)文本生成评价指标—— METEOR原理及代码示例
前奏:【NLG】(一)文本生成评价指标——BLEU原理及代码示例1.METEOR原理2.优缺点3.如何算BLEU原创 2021-01-10 23:42:45 · 11779 阅读 · 7 评论 -
【NLG】(一)文本生成评价指标——BLEU原理及代码示例
关于指标:评价算法的效果,给模型效果进行量化,这样可以跟有同样功能的模型比较好坏。所以指标在定义的时候,也跟模型的解决的问题有关系。比如分类模型,评估模型效果时,会看其准招率;推荐模型会看auc、NDCG等指标,每个指标有自己的优缺点,想使用该指标,也得接受它不足的地方。当然,你也可以自己定义指标的计算方式i,至于业界是否认,那就不好说了。自然语言生成(Natural Language Generation,NLG),经常使用的无监督自评估方法如下(这里只展示一部分):bleu:比较真实评论原创 2021-01-10 23:40:27 · 6649 阅读 · 2 评论 -
sklearn(十)多标签问题如何获取label,设置固定阈值,还是选择topn作为最终预测结果?
背景:nlp模型,基于bert预训练模型做的fine-tuning,用来多文本的多标签任务,一个文本会有多个标签。1.多标签模型的损失函数介绍:2.如何确定模型的预测结果原创 2020-12-04 21:04:42 · 3301 阅读 · 1 评论 -
sklearn(九)计算f1_score()
1.原理2.sklearn中f1_score()的使用介绍(1)average: string, [None, ‘binary’ (default), ‘micro’, ‘macro’, ‘weighted’, ‘samples’],This parameter isrequired for multiclass/multilabeltargets.①None:返回每一类各自的f1_score,得到一个array。②'binary':只对二分类问题有效,返回由pos_labe...原创 2020-12-04 20:59:38 · 5777 阅读 · 0 评论 -
sklearn(八)计算多分类任务中每个类别precision、recall、f1的分类报告classification_report()
1.classification_report()是什么?2.例子原创 2020-12-04 20:51:37 · 5871 阅读 · 0 评论 -
sklearn(七)计算多分类任务中每个类别precision、recall、f1的集成函数precision_recall_fscore_support()
1.precision_recall_fscore_support()使用介绍:sklearn.metrics.precision_recall_fscore_support(y_true, y_pred, *, beta=1.0, labels=None, pos_label=1, average=None, warn_for=('precision', 'recall', 'f-score'), sample_weight=None, zero_division='warn')输入参数:原创 2020-12-01 22:36:54 · 13734 阅读 · 1 评论 -
sklearn(六)计算acc、recall、f1中micro和macro的区别
‘micro’:通过先计算总体的TP,FN和FP的数量,再计算F1,Precision(tp/(tp+fp)) = Recall(tp/(tp+fn)) = F1_score(2 * (precision * recall) / (precision + recall)) = Accuracy(T/(T+F))计算micro时,四者相等(如果没有出现预测错误的情况,如下面的例子预测为0,否则tp=T,fp=fn=F)‘macro’:分布计算每个类别的F1,然后做平均(各类别F1的权原创 2020-12-01 22:36:13 · 4699 阅读 · 0 评论 -
sklearn(五)计算acc:使用metrics.accuracy_score()计算分类的准确率
accuracy_score函数计算了准确率。在二分类或者多分类中,预测得到的label,跟真实label比较,计算准确率。在multilabel(多标签问题)分类中,该函数会返回子集的准确率。如果对于一个样本来说,必须严格匹配真实数据集中的label,整个集合的预测标签返回1.0;否则返回0.0.acc的不适用场景:在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc也有 99% 以上,没原创 2020-11-20 22:32:38 · 50941 阅读 · 3 评论 -
sklearn(四)计算recall:使用metrics.recall_score()计算多分类的召回率
写在前面:sklearn(三)计算recall:使用metrics.recall_score()计算二分类的召回率1.sklearn.metrics.recall_score()的使用方法2.例子原创 2020-11-20 22:21:13 · 16174 阅读 · 1 评论 -
sklearn(三)计算recall:使用metrics.recall_score()计算二分类的召回率
从常用评价指标文章中摘出来:召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P。被预测为正的样本占正样本总量的比例。原创 2020-11-20 22:16:39 · 8754 阅读 · 0 评论 -
sklearn(二)计算auc:使用sklearn.metrics.roc_auc_score()计算多分类的auc
写在前面:sklearn计算auc(一):使用sklearn.metrics.roc_auc_score()计算二分类的auc1.sklearn.metrics.roc_auc_score()计算多分类auc的用法2.例子原创 2020-11-19 23:49:12 · 22421 阅读 · 6 评论 -
sklearn(一)计算auc:使用sklearn.metrics.roc_auc_score()计算二分类的auc
(1)曲线与FP_rate轴围成的面积(记作AUC)越大,说明性能越好,即图上L2曲线对应的性能优于曲线L1对应的性能。即:曲线越靠近A点(左上方)性能越好,曲线越靠近B点(右下方)曲线性能越差。(2)A点是最完美的performance点,B处是性能最差点。(3)位于C-D线上的点说明算法性能和random猜测是一样的–如C、D、E点。位于C-D之上(即曲线位于白色的三角形内)说明算法性能优于随机猜测–如G点,位于C-D之下(即曲线位于灰色的三角形内)说明算法性能差于随机猜测–如F点。原创 2020-11-19 23:03:41 · 55278 阅读 · 6 评论 -
置信度计算——T检验(配对样本t检验、AB实验置信度)
为什么计算置信度?在推荐场景下,我们会研发一些策略,来提升业务指标,在做AB实验的时候,实验组跟base组的指标对标,并非稳定的胜利或者稳定的失败,观察7天或者14天的指标数据,会有正有负,那么怎么衡量胜利的置信度呐?这属于碰到统计学中的假设检验问题,可以使用常见的卡方检验、t检验以及正态性检验等,去检验论证某个设想,并通过统计学的方法做解释。置信度是什么?理论与应用t检验,通常会应用于三种情况的检验,分别是单样本t检验、双样本t检验和配对样本t检验。这里着重说下配对样本t检验,跟工作中原创 2020-06-26 10:53:57 · 16913 阅读 · 2 评论 -
相似度计算方式汇总
常用的下面一些距离计算方式欧式距离(Euclidean Distance) 余弦相似度(Cosine) 皮尔逊相关系数(Pearson) 修正余弦相似度(Adjusted Cosine) 汉明距离(Hamming Distance) 曼哈顿距离(Manhattan Distance)1.欧式距离(Euclidean Distance)欧式距离全称是欧几里距离,是最易于理解的一种...原创 2020-05-06 15:36:57 · 7748 阅读 · 0 评论 -
推荐算法常用评价指标
1 混淆矩阵参考链接:1.https://blog.csdn.net/qq_40006058/article/details/89432773?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevan...原创 2020-04-24 09:09:55 · 5388 阅读 · 1 评论 -
【ML】熵、信息增益、信息增益比学习笔记
原创 2020-04-18 14:09:24 · 151 阅读 · 0 评论 -
【推荐搜索评价指标一】NDCG-概念-原理-推导-代码
鄙人愚见:相比于推荐,搜索结果,更加关注排序的位置。所以评价指标中加入位置信息可以理解,但是有人说用该指标衡量推荐效果,茫茫然的感觉,总觉得不合适。个人觉得推荐是强推出一系列item,对item之间的相关性要求不高,并且item之间的相关性不能太高!!为什么?如果推荐的item都是一个类别,你还想继续看吗?纯属过推荐,让用户喷做的啥东东。。。推荐中需要考虑一些多样性,结合用户喜好,增加多样性,...原创 2020-04-18 13:39:27 · 2583 阅读 · 1 评论