学堂在线_大数据机器学习_小笔记

学堂在线大数据机器学习小笔记

20220607
-
https://www.xuetangx.com/learn/THU08091001026/THU08091001026/10333105/video/17653559

-----------------

第2章_机器学习基本概念
-
假设空间:模型函数的集合。
-
训练集越小、且模型函数越复杂时,就越容易 过拟合(测试集的损失太多(泛化误差太大))。
减小泛化误差的方法:(1)增加训练集数据量,训练集变大;(2)模型正则化,给模型函数添加 正则化项(即 罚项,一般为模型函数的参数向量的norm的标量倍)。

---

测试集有限,且将模型函数应用于不同测试集而表现出的泛化误差也不同。所以,还要从理论上分析 泛化能力。
-
泛化能力:泛化误差的概率上界。
当 训练集越大、且假设空间越小、且设定概率越大 时,泛化误差的概率上界越小,即泛化能力越强。

-------------------

第03章_模型性能评估:评估泛化误差。
-
若训练集太大、且测试集太小,则泛化误差容易不可靠;
若训练集太小、且测试集太大,则模型函数容易过拟合。

---

从数据集中产生 训练集与测试集 的方法:
若数据集足够大,则建议采用 留出法 或 交叉验证法;
若数据集较小,可考虑采用自助法(boostrapping)。

---

Precision查准率 == 准确率 == 二分类问题中,“预测正例”中的实际真正例 的占比。(被预测为狗的动物中,有多少真是狗?其中,真狗的占比==准确率)(常用于广告推荐,尽可能精准推荐,避免干扰用户)
-
Recall查全率 == 召回率 == 二分类问题中,“实际正例”中的预测正例 的占比。(有多少真狗被预测为狗?被预测为狗的真狗 在全部真狗中 的占比==召回率)(常用于台风预警,尽可能不遗漏台风)
-
准确率与召回率,一高一低,或一低一高。

---

PR曲线——根据模型(学习器)的预测结果,对全部样本进行排序(从 最可能是正例的样本 到 最不可能是正例的样本),再逐个作为正例 进行预测,每预测一个样本 可得到当前的Precision和Recall。以Precision为纵轴,Recall为横轴,作图,就得到PR曲线。
-
若 模型f1的PR曲线 完全包住 模型f2的PR曲线,则f1的预测性能优于f2.
-
F_β度量——其中的β刻画了 Recall对Precision的相对重要性。当β=1时,退化为 F_1度量。

---

ROC曲线——根据模型(学习器)的预测结果,对全部样本进行排序(从 最可能是正例的样本 到 最不可能是正例的样本),再把分类阈值逐个从最大到最小设置一遍,于是逐个得到相应的坐标(FPR,TPR),最后作图。
-
若 模型f1的ROC曲线 完全包住 模型f2的ROC曲线,则f1的预测性能优于f2.
若 模型f1的ROC曲线 与 模型f2的ROC曲线 交叉,则AUC曲线面积更大者的预测性能更优。
在ROC分析中,分类器(模型函数)的性能曲线的理想状态是:越靠上越好(AUC趋近于1)。
-
ROC曲线的TPR == Precision

---

偏差-方差分解——解释模型函数泛化性能的重要工具。
泛化误差 = 偏差 + 方差 + 噪声。
偏差——刻画了模型函数的期望预测与真实结果的偏离程度,即模型函数本身的拟合能力。
方差——刻画了同样大小训练集的变动所导致的预测性能变化,即数据扰动所造成的影响(数据的充足性)。
噪声——刻画了当前任务上的任何模型函数所能达到的期望泛化误差的下界,即学习任务本身的难度。
-
偏差-方差窘境——
训练初期,模型函数训练不足、拟合能力较弱,此时训练集的数据扰动 难以影响模型函数的显著变化(即不足以被学到),此时,偏差主导泛化误差;
训练程度加深后,模型函数拟合能力增强,训练集数据的扰动会造成模型函数的变化(即被学到),此时,方差主导泛化误差。
训练程度充足时,模型函数的拟合能力非常强,训练集数据的轻微扰动 足以造成模型函数的显著变化(即被学到)。若训练集数据的非全局特性被模型函数学到,则发生 过拟合。
-
模型函数的泛化能力越强,越不容易发生过拟合。

-------------------------

第04章_感知机
-
1957年,感知机。
感知机 是 SVM的基础,感知机的线性可分性和对偶性形式都是SVM直接的对应关系。
感知机 是 神经网络的基础。神经网络中的每个神经元,就是一个感知机,之后跟随一个非线性的激活函数,并使得输出值连续可导。

-------------------------
20220608

第05章_聚类

聚类 可作为分类等其他学习任务的前驱过程。
很多实际问题都需要先进行 聚类 的预处理,然后再进行其他处理过程。
-
聚类的性能度量——
(1)外部指标:Jaccard系数JC、FM指数FMI、Rand指数RI 越大,均表示 聚类算法的分类性能越好。
(2)内部指标:DB指标DBI越小,聚类效果越好;Dunn指标DI越大,聚类效果越好。
(3)距离度量:MinkovDM;VDM。

---------------
20220609

第07章_决策树

决策树的节点(属性)所在层次 代表了该节点(属性)的重要程度。最重要的属性是根节点。

希望决策树尽可能准确、同时又不太深(节点少、速度快)——这是一对矛盾。

某一分类属性若越重要,则在决策树中的节点层次应该越高才对(最重要的分类属性 应在 根节点)。但是,CLS算法并非按照 分类属性的重要程度 来选择根节点。所以针对属性选择问题,又提出了ID3算法。

信息量——对不确定性的度量,即对分布不均匀性的度量。概率分布越均匀,各种随机变量出现的概率越接近,则不确定性就越大,信息量就越大。

熵——对多个事件发生的平均信息量度量。熵越大,平均信息量越大,不确定性就越大,无序性就越大,越乱。

----------------
20220610.No.1805
-
第10章_核技巧与非线性SVM_泛函分析基础
-
与SVM相比,核技巧是更一般的机器学习方法。
-
泛函分析:对 空间中的点的对应关系 的分析方法,比如 非线性变换。

-----------------
20220611.No.1806
-
第11章_降维与度量学习
-
高维空间会给 距离计算 和 内积计算 造成麻烦。在高维信息下,数据样本稀疏、距离计算困难等问题是所有机器学习方法共同的问题——维数灾难(特征空间维数太高,但样本点数量不够多)。
------------------
20220612.No.1807
-
第14章_计算学习理论
-
计算学习理论——对学习任务进行难易程度分析的更基础理论,为学习任务提供理论保证。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值