学堂在线_大数据机器学习_小笔记

最新推荐文章于 2023-06-05 18:44:48 发布

Ehontoo

最新推荐文章于 2023-06-05 18:44:48 发布

阅读量561

点赞数

分类专栏： AI+ML 文章标签：机器学习人工智能深度学习概率论

本文链接：https://blog.csdn.net/Ehontoo/article/details/125246389

版权

AI+ML 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

学堂在线大数据机器学习小笔记

20220607
-
https://www.xuetangx.com/learn/THU08091001026/THU08091001026/10333105/video/17653559

-----------------

第2章_机器学习基本概念
-
假设空间：模型函数的集合。
-
训练集越小、且模型函数越复杂时，就越容易过拟合（测试集的损失太多（泛化误差太大））。
减小泛化误差的方法：（1）增加训练集数据量，训练集变大；（2）模型正则化，给模型函数添加正则化项（即罚项，一般为模型函数的参数向量的norm的标量倍）。

---

测试集有限，且将模型函数应用于不同测试集而表现出的泛化误差也不同。所以，还要从理论上分析泛化能力。
-
泛化能力：泛化误差的概率上界。
当训练集越大、且假设空间越小、且设定概率越大时，泛化误差的概率上界越小，即泛化能力越强。

-------------------

第03章_模型性能评估：评估泛化误差。
-
若训练集太大、且测试集太小，则泛化误差容易不可靠；
若训练集太小、且测试集太大，则模型函数容易过拟合。

---

从数据集中产生训练集与测试集的方法：
若数据集足够大，则建议采用留出法或交叉验证法；
若数据集较小，可考虑采用自助法（boostrapping）。

---

Precision查准率 == 准确率 == 二分类问题中，“预测正例”中的实际真正例的占比。（被预测为狗的动物中，有多少真是狗？其中，真狗的占比==准确率）（常用于广告推荐，尽可能精准推荐，避免干扰用户）
-
Recall查全率 == 召回率 == 二分类问题中，“实际正例”中的预测正例的占比。（有多少真狗被预测为狗？被预测为狗的真狗在全部真狗中的占比==召回率）（常用于台风预警，尽可能不遗漏台风）
-
准确率与召回率，一高一低，或一低一高。

---

PR曲线——根据模型（学习器）的预测结果，对全部样本进行排序（从最可能是正例的样本到最不可能是正例的样本），再逐个作为正例进行预测，每预测一个样本可得到当前的Precision和Recall。以Precision为纵轴，Recall为横轴，作图，就得到PR曲线。
-
若模型f1的PR曲线完全包住模型f2的PR曲线，则f1的预测性能优于f2.
-
F_β度量——其中的β刻画了 Recall对Precision的相对重要性。当β=1时，退化为 F_1度量。

---

ROC曲线——根据模型（学习器）的预测结果，对全部样本进行排序（从最可能是正例的样本到最不可能是正例的样本），再把分类阈值逐个从最大到最小设置一遍，于是逐个得到相应的坐标（FPR，TPR），最后作图。
-
若模型f1的ROC曲线完全包住模型f2的ROC曲线，则f1的预测性能优于f2.
若模型f1的ROC曲线与模型f2的ROC曲线交叉，则AUC曲线面积更大者的预测性能更优。
在ROC分析中，分类器（模型函数）的性能曲线的理想状态是：越靠上越好（AUC趋近于1）。
-
ROC曲线的TPR == Precision

---

偏差-方差分解——解释模型函数泛化性能的重要工具。
泛化误差 = 偏差 + 方差 + 噪声。
偏差——刻画了模型函数的期望预测与真实结果的偏离程度，即模型函数本身的拟合能力。
方差——刻画了同样大小训练集的变动所导致的预测性能变化，即数据扰动所造成的影响（数据的充足性）。
噪声——刻画了当前任务上的任何模型函数所能达到的期望泛化误差的下界，即学习任务本身的难度。
-
偏差-方差窘境——
训练初期，模型函数训练不足、拟合能力较弱，此时训练集的数据扰动难以影响模型函数的显著变化（即不足以被学到），此时，偏差主导泛化误差；
训练程度加深后，模型函数拟合能力增强，训练集数据的扰动会造成模型函数的变化（即被学到），此时，方差主导泛化误差。
训练程度充足时，模型函数的拟合能力非常强，训练集数据的轻微扰动足以造成模型函数的显著变化（即被学到）。若训练集数据的非全局特性被模型函数学到，则发生过拟合。
-
模型函数的泛化能力越强，越不容易发生过拟合。

-------------------------

第04章_感知机
-
1957年，感知机。
感知机是 SVM的基础，感知机的线性可分性和对偶性形式都是SVM直接的对应关系。
感知机是神经网络的基础。神经网络中的每个神经元，就是一个感知机，之后跟随一个非线性的激活函数，并使得输出值连续可导。

-------------------------
20220608

第05章_聚类

聚类可作为分类等其他学习任务的前驱过程。
很多实际问题都需要先进行聚类的预处理，然后再进行其他处理过程。
-
聚类的性能度量——
（1）外部指标：Jaccard系数JC、FM指数FMI、Rand指数RI 越大，均表示聚类算法的分类性能越好。
（2）内部指标：DB指标DBI越小，聚类效果越好；Dunn指标DI越大，聚类效果越好。
（3）距离度量：MinkovDM；VDM。

---------------
20220609

第07章_决策树

决策树的节点（属性）所在层次代表了该节点（属性）的重要程度。最重要的属性是根节点。

希望决策树尽可能准确、同时又不太深（节点少、速度快）——这是一对矛盾。

某一分类属性若越重要，则在决策树中的节点层次应该越高才对（最重要的分类属性应在根节点）。但是，CLS算法并非按照分类属性的重要程度来选择根节点。所以针对属性选择问题，又提出了ID3算法。

信息量——对不确定性的度量，即对分布不均匀性的度量。概率分布越均匀，各种随机变量出现的概率越接近，则不确定性就越大，信息量就越大。

熵——对多个事件发生的平均信息量度量。熵越大，平均信息量越大，不确定性就越大，无序性就越大，越乱。

----------------
20220610.No.1805
-
第10章_核技巧与非线性SVM_泛函分析基础
-
与SVM相比，核技巧是更一般的机器学习方法。
-
泛函分析：对空间中的点的对应关系的分析方法，比如非线性变换。

-----------------
20220611.No.1806
-
第11章_降维与度量学习
-
高维空间会给距离计算和内积计算造成麻烦。在高维信息下，数据样本稀疏、距离计算困难等问题是所有机器学习方法共同的问题——维数灾难（特征空间维数太高，但样本点数量不够多）。
------------------
20220612.No.1807
-
第14章_计算学习理论
-
计算学习理论——对学习任务进行难易程度分析的更基础理论，为学习任务提供理论保证。

Ehontoo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学堂在线_大数据机器学习_小笔记

学堂在线大数据机器学习小笔记20220607-https://www.xuetangx.com/learn/THU08091001026/THU08091001026/10333105/video/17653559-----------------第2章_机器学习基本概念-假设空间：模型函数的集合。-训练集越小、且模型函数越复杂时，就越容易过拟合（测试集的损失太多（泛化误差太大））。减小泛化误差的方法：（1）增加训练集数据量，训练集变大；（2）模型正则化，给模型函数添加正则化项（即罚项，
复制链接

扫一扫

专栏目录