读《机器学习》笔记

最新推荐文章于 2023-12-07 13:29:41 发布

AI专家

最新推荐文章于 2023-12-07 13:29:41 发布

阅读量1.4k

点赞数

分类专栏：机器学习修炼之路专家之道

本文链接：https://blog.csdn.net/weixin_42039090/article/details/80720805

版权

机器学习同时被 3 个专栏收录

78 篇文章 15 订阅

订阅专栏

专家之道

70 篇文章 1 订阅

订阅专栏

修炼之路

61 篇文章 1 订阅

订阅专栏

一、绪论：

(1) 首先介绍一些基本术语.

(2) 假设空间

(3) 归纳偏好

(4) 发展历程:

ILP:归纳逻辑程序设计问题,由于对知识领域进行精化和增强,假设空间太大,复杂度太高,问题规模稍大就难以有效进行学习.

符号主义学

推理期和知识期:介绍了决策树被经常使用原因;

后来九十年度出现了支持向量机SVM以及核方法.连接主义和统计主义之间的发展联系,连接主义一开始占据上风,后来,以统计学习理论为技术的统计主义占据上风,2000年以来,连接主义又卷土重来,以深度学习为代表.在复杂的语音和图像复杂对象的应用中，深度学习技术取得了优越性能。由于数据储量和计算设备的大力发展，为连接主义学习技术换发了一春。

(5) 应用现状：机器学习渗透各个领域。只要涉及数据获取、数据管理、数据分析、仿真实验等环节，机器的舞台就少不了。当然，数据挖掘除了数据库、机器学习和统计学九十年代影响最大。机器学习建立关于学习的计算模型促进我们理解“人类如何学习”，SDM模型的提出。自然科学研究的驱动力归结起来就是人类对宇宙本源、万物本质、生命本性、自我本识的好奇，而人类如何学习称为自我本识的重大问题。奥卡姆剃刀原则主张选择与经验观察一致的最简单假设。

二、模型评估与选择：

1) 经验误差与过拟合。

错误率。精度。误差。训练误差或者经验误差。泛化误差。过拟合、欠拟合问题。

测试集、测试误差。用老师出了10道题这个问题，然后又用10道题来考试的问题。

样本的分割：留出法，比率一般为2/8或3/7.交叉验证法：10折交叉验证。留一法，模型太多，样本少可以。自助采样（放回）booststrapping，不断地随机抽取，达到一定数量。性能度量问题：反映了任务需求。性能度量问题中均方误差概念。

查准率、查全率与F1。引入了真正例、假正例、真反例、假反例四中情形。可以用混淆矩阵来表示。给出了查准率和查全率的计算公式。提出了P-R图。平衡点问题。实际过程中，查全率和查准率存在很多的不同影响因子。实际中，我们希望通过多次平均来

衡量查全率和查准率。提出了宏查准率和宏查全率以及加权调和平均问题。

ROC与AUC。ROC：针对真正例率、假正例率进行刻画的曲线。绘图过程：给定m个正例和n个反例，根据学习器预测结果对样例进行排序，然后把分类阈值设为最大，即把所有样例都预测为反例，此时真正例率和假正例率均为0，在坐标（0，0）处标记为一个点。然后，将分类阈值一次设为每个样例的预测值，即依次将每个样例划分为正例。当然，我们也可以相反，为了创建ROC曲线，首先要将分类样例按照其预测强度排序。先从排名最低的样例开始，所有排名更低的样例都被判为反例，而所有排名更高的样例都被判为正例。该情况的对应点为<1.0,1.0>。然后，将其移到排名次低的样例中去，如果该样例属于正例，那么对真阳率进行修改；如果该样例属于反例，那么对假阴率进行修改。

AUC就是ROC下面的面积。

代价敏感错误率与代价曲线。非均等代价。

统计假设检验为我们进行了学习器性能比较提供了重要依据。基于假设检验结果我们可以推断出，若在测试集上观察到学习器A比B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。

假设检验中的假设是对学习器泛化错误率分布的某种判断或猜测。泛化错误率的概念。

比较检验。

偏差与方差。

第3章线性模型

基本形式: f(x)=w^Tx+b其中w和b学习训练之后，模型得以确定。

线性模型简单易于实现，当然引入层级结构或者高维映射以后，功能更加强大。

线性模型具有很好的解释性。

线性回归问题：linear regression。首先数值化，基本方法枚举型，直接使用离散数据，且连续整数，一般从0开始，这样便于后面进行管理。

线性回归的系数，我们可以通过最小二乘法来进行误差评估。最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。为了参数估计，导数来帮忙。

如果X^Tx为满秩矩阵或正定矩阵时，w*=(X^TX)^-1X^Ty.

如果X^Tx不为满秩矩阵或正定矩阵时，这时引入正则化项。

线性模型有很多衍生模型。

比如：对数衍生模型。广义线性模型。对数几率回归模型。引入了sigmod函数，它在回归和神经网络中，大有用武之地！

逻辑回归不需要事先假设数据分布，避免了假设分布不准确问题。又由于对数函数是任意阶可导的凸函数，有很好的数学性质，很多算法都引入，求取最优解。

另外，我们也可以通过极大似然法（maximum likelihood method）来估计w和b，给定数据集对率回归模型最大化“对数似然”。即每个样本属于其真实标记的概率越大越好。

后面，提出了如何计算参数问题，讨论了导数求解方法。

线性判别分析是一种经典的线性学习方法，在二分类问题，也称为：Fisher判别分析。

LDA的思想就是通过投影来判断，如果距离相近，那么，它们就判为同一类。

给定数据集，分别计算类示例的集合、均值向量、协方差矩阵，若将数据投影到直线w上，则两类样本的中心在直线上的投影分别为：W^Tu₀和W^Tu₁，若所有样本点都投影在直线上，则两类样本的协方差分别标记出来。为了让同类投影点最近，异类投影点最远，考虑最大化目标J。

多分类学习。

方法是拆分策略，即将多分类任务拆分为若干个二分类任务求解。先对问题进行拆分，然后为拆分的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。

最经典的拆分策略有三种：一对一、一对其余、多对多策略。

一对一策略：OVO将N个类别两两配对后，投票产生。

一对其余策略：OVR，将一个类作为正例，其他作为反例。这样训练N个分类器。比如：以C1、C2、C3、C4为例，第一次，C1为正例，其他为反例时，预测结果为反例；第二次，C2为正例，其余为反例，预测结果依然为反例；第三次C3为正例时，其余为反例，这时预测为正例；第四次C4为正例时，其余为反例。综合以上意见，可以看出分为类别C3可信度更高。

MVM是每次都将若干个类作为正例，若干其他类作为反例。当然，不能随意选择，就使用了最常用的技术：纠错输出码，即ECOC。

思路是：编码：对N个类别做M次划分，每次划分将一部分类别划分为正例，一部分划分为反例，从而形成了一个二分类训练集，这样形成了一个二分类训练集；这样一共产生了M个训练集，可以训练出M个分类器。

解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

这种通过编码矩阵的思想来实现，有很大的可行性。

类别不平衡问题。如果不同类别的训练样例数目差别很大，会怎么样呢。

再缩放思想。首先基于训练集是真实样本总体的无偏采样，这个假设并不成立。如果做不到，可以有三种方法：

（1）使用欠采样方式；

（2）使用过采样方式。比欠采样时间开销要大。

（3）阈值移动方式。直接基于原始训练集进行学习，在用训练好的分类器进行预测时，将类别样本（正反例）数目的比值或者正反例的误判率比值嵌入到决策过程中。

AI专家

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
读《机器学习》笔记

一、绪论：(1) 首先介绍一些基本术语.(2) 假设空间(3) 归纳偏好(4) 发展历程:ILP:归纳逻辑程序设计问题,由于对知识领域进行精化和增强,假设空间太大,复杂度太高,问题规模稍大就难以有效进行学习.符号主义学推理期和知识期:介绍了决策树被经常使用原因;后来九十年度出现了支持向量机SVM以及核方法.连接主义和统计主义之间的发展联系,连接主义一开始占据上风,后来,以统...
复制链接

扫一扫