读书笔记---

1. 为什么要评价学习器的性能?

= 为什么要评价学生的能力?

回答:是否能够胜任自己未来的工作?

1)直观了解模型在特定任务上的表现,是否满足实际需求。

2)对未来样本的预测效果,能更好应用现实需要。例如,人脸识别、垃圾邮件检测、医学诊断….

2. 评价系统与学习系统的关系是什么,角色分别是什么?

  运动员与裁判员(教练员)

1)评价系统为学习系统提供反馈机制。

2)学习系统根据评价系统的评估结果,调整学习策略、自我完善、提高性能。

3. 评价系统的职责是什么?

  选拔人才

1)反馈提供:评价系统进行性能评估,向学习系统提供反馈,学习系统可以调整其参数、模型结构、学习策略,提高性能。

2)模型选择:评价系统通过比较不同模型在数据集上的性能,帮助人们选择最优的模型。

4.  99.999% 比 99.99% 更好吗?

通常99.999% 的预测准确率被认为比 99.99% 更好,实则不一定。

1)预测准确率并不是唯一的衡量标准。在某些情况下,还需要考虑其他因素 。例如,在

网络钓鱼问题中,100万训练数据集中,假设大约20万个真正的网络钓鱼电子邮件,预测的准确率很高,但是如果一封邮件,总是预测为非网络钓鱼邮件,一旦是网络钓鱼电子邮件,无法识别,还需要其他指标辅助。数据存在不平衡。这个现象越明显,问题越突出。

2)测试性能并不等于泛化性能。测试性能会随着测试集的变化而变化,很多机器学习算法本身有一定的随机性。如果直接选取相应评估方法在相应度量指标下比大小不可取,需要借用数理统计提供的假设检验方法。

5. 为什么交叉验证?

常见的评估方法:split in two, CV, leave-one-out,交叉验证。

1)当数据量不充足、没有足够多的样本,随机划分数据集,不同的划分得到不同的测试集,为了有效降低随机划分带来的影响,减少不确定性,使用交叉验证可以充分利用已有的数据。

2)K折交叉验证,将数据集D划分为k个大小相同相似、互不相交的子集。每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集。这样可以获得k组训练/测试集,进行k次训练、测试,最终返回k个测试结果的均值。常用的k值有5、10、20等。

6. 什么时候使用 split in two, CV, leave-one-out?  

1)split in two:当数据量大,直接将数据集划分为两个互斥集合,如果数据集较小,简单

的划分可能导致训练集、测试集中的数据分布不均匀,从而影响模型的泛化能力。

2)CV:当数据集大小适中,采用交叉验证。

3)leave-one-out:当数据集非常小时,留一交叉验证可以最大程度地利用有限的数据进行

模型评估。每次将数据集中的一个样本作为测试集,其余所有样本作为训练集,重复进行直到每个样本都被用作一次测试集。最后计算所有测试集上的平均性能。

7. 泛化性不高的原因有哪些?

  - 数据量太少

  - 小样本学习

1)数据质量:训练数据中可能存在错误、缺失的值。

2)数据分布:训练集和测试集的数据分布不一致,模型在训练集上学到的特征可能无法有效地推广到测试集上,导致泛化性能下降。

3)模型复杂度过高:当模型的复杂度过高,如神经网络的层数过多或参数量过大,容易出现过拟合,忽略更广泛的规律,导致泛化能力较差。

4)模型选择不当:选用的模型可能不适合当前问题,或者模型参数设置不合理,也会导致泛化能力不佳。

5)欠拟合:模型对训练数据集的表现很差,无法正确学习数据的规律,这同样会导致泛化能力差。

6)特征选择不当:选择的特征可能不具代表性、相关性较弱或存在冗余,导致模型无法从数据中提取到足够的有效信息,影响泛化能力。

8. Accuracy, Precision, Recall, F1 分别表示什么意思?

使用不同的评估指标导致不同的评估结果。参见

https://blog.csdn.net/minfanphd/article/details/130880261

混淆矩阵:误差矩阵,主要用于比较分类结果和实例的真实信息。TP(真正)、FP (假正)、FN (假负)、TN (真负)。

表1 混淆矩阵

1)Accuracy:准确率

Accuracy=预测正确的样本数/样本的总数=

正样本很少、负样本很多,用准确率、错误率来评价模型并不合适,它们将每个类看得同等重要,因此,不适合用来分析不平衡的数据集。在类不平衡数据集中,正确分类稀有类比正确分类多数类,更有意义。此时,需要查准率和查全率。

2)Precision:精确率

Precision=正确预测的正例数/预测的正例数= 

3)Recall:召回率

Recall =正确预测的正例数/所有正例数=

既希望精确率高、也希望召回率高,两者矛盾,需要在它们之间权衡,有了F1得分。

4)F1得分

F1=

5)ROC曲线:

真正率(TPR):正确预测为正的正样本数/正样本总数。

TPR=

假正率(FPR):错误预测为正的正样本数/负样本总数。

TPR=

根据分类器的概率预测结果对样例排序,并按此顺序依次选择不同的“截断点”逐个把样例作为正例进行预测。每次计算出当前分类器的“真正率”和“假正率”,然后分别以它们为纵轴和横轴绘图。ROC曲线越靠近左上角,它的排序性能越好。

6)AUC:ROC曲线下的面积

9. 标签除了 Y/N,还有哪些输出?

常见的标签输出形式:

1)二分类:0、1或者Y/N,表示两个互斥的类别。

2)多分类:离散的类别标签,通常表示为整数或字符串。例如,在动物分类中,可能的标签有“dog”、“cat”、“bird”等。

3)多标签分类:为每个样本分配多个类别标签,标签的输出是一个标签集合。例如,一张图片可能包含多个物体等。

4)概率值:输出可能不是直接的类别标签,而是属于每个类别的概率值。

5)连续值:回归问题中标签是连续值,例如房价预测。

10. 如何把概率值转换为 Y/N

1) - 阈值

将概率值转换为 "Y/N"(是/否),通常需要设置一个阈值(threshold)。当概率值超过这个阈值,将结果视为 "Y"(是),否则视为 "N"(否)。这个阈值的选择至关重要。

2)- HR@5, DCG, NDCG, NDCG@10

预测样本为正的概率, 然后将其逆序排列。

HR@5:是HR的一个特例,指在前5个推荐项目中衡量命中率。这个指标更加关注推荐列表前部的准确性,因为用户往往只关注前几个推荐结果。例如, 为用户推荐电影时, 将他最有可能喜欢的电影放在前面。

DCG:考虑了推荐结果相关性和位置信息的评估指标。在DCG中,相关性高的结果排在前面会得到更高的增益,而排在后面的结果则会被“打折”处理。用户往往更加关注排名靠前的结果。

NDCG@10.: NDCG(归一化折损累计增益)是DCG的归一化形式,其值介于0和1之间, NDCG=DCG/IDCG, 其中,IDCG(Ideal DCG)表示理想情况下的DCG值。NDCG@10是NDCG的一个特例,它特指在前10个推荐项目中衡量归一化折损累计增益。

3)- Ranking based: NDCG, Recall@10

NDCG、Recall@10,基于排名的评估指标,Recall@10则主要关注前10个结果中的相关结果

数,适用于对查全率有较高要求的场景。

11. 分类、多标签的本质也是推荐

1)分类:将输入数据分配到预定义的类别中,在分类任务中,通常有一个或多个特征向量

作为输入,这些特征向量描述了数据的各种属性或特征。然后,模型会根据这些特征向量将输入数据分配到最可能的类别中。多标签分类(Multi-label Classification):是分类问题的一个扩展,它允许一个实例同时属于多个类别。例如,在电影推荐中,一部电影可以同时被标记为“动作”、“科幻”和“冒险”等多个标签。推荐系统通过分析用户的行为、兴趣和其他相关信息,为用户推荐可能感兴趣的项目(如商品、电影、音乐等)。推荐系统的核心在于预测用户对未接触项目的偏好程度,并根据预测结果生成推荐列表。推荐系统不仅考虑项目的类别和属性,还考虑用户的历史行为、社交关系等多种因素,以提供更加个性化和精准的推荐。

2)分类、多标签分类、推荐系统,都需要理解和利用用户(或数据)的偏好或特征来进行预测或推荐。

3)都采用了机器学习、深度学习等技术。例如,基于内容的推荐算法与基于内容过滤的多标签推荐算法在原理上有相似之处。

4)它们的根本目标都是提高模型的预测性能、用户满意度。

12. 要想当好运动员,需要先搞清楚裁判的指标体系

1)在机器学习中,评估指标是衡量模型性能的关键因素,正如当好运动员需要了解裁判的指标体系一样。

2)不同的评估指标在不同的场景下具有不同的适用性和重要性。在选择评估指标时,需要根据具体问题和数据特点进行权衡选择。同时,也需要注意单一评估指标的局限性,通常需要综合考虑多个评估指标,全面评估模型的性能。

13. 什么是代价敏感?

1)代价敏感(Cost Sensitive)

在分类或决策问题中,当某一类被错误地归类为另一类,会产生显著的损失或代价。例如,在欺诈检测中,将欺诈用户错误地归类为优质客户,将会带来重大的经济损失。在医疗领域,误诊或漏诊都可能对患者的健康和生命造成严重影响。

2)采用代价敏感学习方法和技术,充分考虑到不同类型错误所带来的不同代价,从而优化决策或分类策略。

14. Runtime

模型训练过程的执行时间,通常会随着实例、特征和标签数量的变化而变化。

15. 评价指标与具体的任务相关吗?

评价指标是用于衡量和评估模型性能的度量标准。

1)不同的任务需求,需要不同的评价指标。

2)具体问题具体分析,不存在对所有问题都是好的,在一些问题表现最优,可能在另外一些问题存在缺陷。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值