机器学习总结

机器学习目录

概述

通过数据获取技能;

有可以学习的模式,编程无法实现,没有具体定义,有数据。

类别:

image-20210626214202048

Linear Regression

目标函数:image-20210626215313594

image-20210626215328666

机器学习问题转化为最优化问题:

image-20210626215602898

目标损失函数:

image-20210626220732906

image-20210626220916855

算法:

对损失函数求导,要求伪逆矩阵;

image-20210626220951158

Logistic Regression

01分类映射函数;

非线性,如何转化成最优化问题;

最大似然法;

如何对最大似然法求导,牛顿法+梯度下降法。

贴标签。

逻辑回归推导

牛顿法

PCA

作用:

可视化;数据压缩;噪声处理更准确;

协方差矩阵特征:

image-20210627070407156

维度压缩;

SVD使用

特征提取算法:

image-20210617065131317

两种方法:image-20210617065337966

目标方程image-20210617065926457

损失函数image-20210617070028362代数推导

image-20210617070154448

image-20210617070310748最大类间方差,选取大的特征值image-20210617070444863二维限制条件增加一个与第一维度无关image-20210617070716050image-20210617070814794image-20210617070849286方差就是特征值,根据协方差矩阵计算出大的特征值,对应的特征向量就是w

算法

image-20210627103139661

最小化类内损失

image-20210617071842617

SVD

image-20210617072755681image-20210617072813410

image-20210617073112493

image-20210617073232416

image-20210617102810511image-20210617102817071

伪逆矩阵;

协方差矩阵时上面的式子展开后发现是协方差矩阵,求法还可以是xx‘;只关注它的特征向量,因此使用svd分解对x进行分解,计算更加简单,若要进行主成分提取,选取相应的维度数,进行选取。

X已经归一化;

归一化:x-x平均值,发现协方差中式子总是使用归一化后的值,直接归一化便于后序处理。

image-20210627105524287

优点:

1.不需要计算协方差矩阵;

2.数值上更加精确,xx’可能会造成损失;

维度确定:

image-20210627105800614

数据处理:对数据去相关;数据可视化;投影分类;

LDA

特征提取原则

Unsupervised setting: minimize the information loss
Supervised setting: maximize the class discrimination

2类:

原则:类内最小,类间最大;

计算出类内矩阵,类间矩阵;

使他们的商最大,因为分子分母都有theta,所以只有theta的方向重要,大小或者倍数对结果影响无关。

转化成langerlange问题求解。

求导得到解。

image-20210627132630623

image-20210627132642485

image-20210627132707829

image-20210627132736892image-20210627132751597image-20210627132758687image-20210627132806267image-20210627132814565;会有多个特征值特征向量:

image-20210627132850719选取大的特征值对用的特征向量作为thete。

简化计算得到:

image-20210627133022410;算法步骤:

image-20210627133123507

多类别:

image-20210627144349727image-20210627144359544

Feature Selection

image-20210617104109717按照x1维度某个值可以把标签颜色分开。所以特征表现更好;

image-20210617141020586

特征选择方法image-20210617141054190包裹式,过滤式,嵌入式;

包装方法

•使用机器学习算法作为黑盒来寻找特征的最佳子集。

•在模型“大数据”问题上通常不可行。

Wrapper Methods包裹式

image-20210617141151811增量或者减量;

过滤方法

•机器学习算法运行前选择的特征。

Filter Methods

image-20210617141307741

Embedded methods嵌入式

作为机器学习算法的一部分,特征选择自然发生。

image-20210617141416242增加正则项;

Underfitting & Overfitting

当模型不能在训练集中获得一个足够低的误差值时,就会出现欠拟合。

•当训练误差和测试误差之间的差距过大时,就会发生过拟合;

Avoid Overfitting

防止过拟合:

1.增加测试样本数量2.适当减少容量,减少模型的复杂度,使之能融合模型数减少。3.添加正则项控制某些值保持较小值

image-20210627145856522

l2norm正则项优点:

仍然是𝑤的二次函数,所以它的最小值可以在封闭形式中找到。

容量image-20210617141534535函数的融合能力,次数越高能包含的拟合的曲线越多,容量越大。成为学习器的假设空间。

Avoid Overfitting:添加正则项防止过拟合,对某些参数做惩罚image-20210617141821794

image-20210617141941546图中的线代表正则化值相同,在靠近坐标轴越陡峭,越容易使某个wi为0,解释性更强,表示某个特征作用很小。

image-20210617142148337蓝色:平方误差项损失取值等值线,红色正则项等值线。l1更容易产生离散化的解,表明某些特征不重要,解释性强。

决策树

Divide-and-Conquer Algorithms分而治之

Top-Down Induction of Decision Trees;

应用

Ross Quinlan

ID3,C4.5,C5.0;

Breiman et al.:

CART

ID3 Algorithm

image-20210627165259319

信息增益偏向于选择具有大量值的属性

Intrinsic Information of An Attribute

image-20210627170454702

C4.5信息增益比

修改信息增益,减少其对多值属性的偏向

•考虑分支机构的数量和规模

•通过考虑分割的内在信息来修正信息增益

image-20210627170517351

ID3 信息增益

信息增益的计算

cart 基尼系数

CART (Classification And Regression Trees);

image-20210627170557968

image-20210627171034171

决策树的优点

•造价低廉

•对未知记录进行分类的速度非常快

•易于对小型树木进行解释

•对于许多简单的数据集,精确度可与其他分类技术相媲美

工业级算法

•一个算法要在广泛的现实应用中有用,它必须:

•允许数字属性

•允许缺失值

•在有噪音的情况下保持稳健

→ID3需要扩展以能够处理现实世界的数据

剪枝防止过拟合

采用留出法,留出验证集,对树剪之后是否提升做评估,有一些需要特殊:

预剪枝:生成过程中;
后剪枝:

首先生长一棵完整的树来捕获所有可能的属性交互;

•随后以自下而上的方式修剪成熟的树

Estimating accuracy of a tree on new data: “Test Set”
• Some post pruning methods need an independent data set:
“Pruning Set”image-20210627203850136

后剪枝方法:

Reduced Error Pruning (REP)

该剪枝方法考虑将书上的每个节点作为修剪的候选对象,决定是否修剪这个结点有如下步骤组成:

1:删除以此结点为根的子树

2:使其成为叶子结点

3:赋予该结点关联的训练数据的最常见分类

4:当修剪后的树对于验证集合的性能不会比原来的树差时,才真正删除该结点

• Cost-complexity Pruning (CCP)

该方法在Breiman1984年的经典CART中首次提到并使用。
  一棵树的好坏用如下式子衡量:Rα(T)=R(T)+αC(T)Rα(T)=R(T)+αC(T)
  其中R(T)R(T)表示该树误差(代价)的衡量;C(T)C(T)表示对树的大小的衡量(可以用树的终端节点个数代表)。αα表示两者的平衡系数,其值越大,树越小,反之树越大。
  怎么用这个准则剪枝呢?
  1.找到完整树的一些子树{Ti,i=1,2,3,…,mTi,i=1,2,3,…,m}。
  2.分别计算他们的Rα(Ti)Rα(Ti),选择最小的Rα(Ti)Rα(Ti)所代表的树。
  误差(代价)用训练样本,但最好十折计算
  4)Error-Based Pruning:基于错误的剪枝[6]
  该方法由Quinlan在1992年的C4.5算法中首次提出并使用。使用测试集来剪枝。
  对每个节点,计算剪枝前和剪枝后的误判个数,若是剪枝有利于减少误判(包括相等的情况),则减掉该节点所在分支。
  5)Critical Value Pruning:
  该方法由Mingers1987年发明。
  树的生成过程中,会得到选择属性及分裂值的评估值,设定一个阈值,所有小于此阈值的节点都剪掉。

image-20210627210511650image-20210627210553188image-20210627210613387

交叉验证;

Characteristics of Decision Tree

Parametric vs Nonparametric Models

image-20210627212433589

image-20210627212331525

image-20210627212414038

image-20210627212500475

决定边界

•多元分裂

(一)单个节点分裂可以有多个属性参与。

(一)寻找最佳的多变量标准比单变量分割更为复杂。

虽然多变量分割可以显著改善树的性能,但不如单变量分割受欢迎。

(三)主要基于输入属性的线性组合。

ii . C4.5构建单变量决策树

ii . CART可以构建多变量树

Regression Trees

Leaf Nodes:
• Predict the average value of all instances in this leaf

终止标准:非常重要!(否则每个叶中只有一个点):

•节点标准差的下界

•一个节点中示例数量的下界

•修剪标准:

•数值误差测量,如均方误差

缺失值处理

将x同时划分到所有子节点,权重为属性值对应子节点中调节为样本非缺失值在所有中所占的比例;image-20210627202403356

连续值处理

贝叶斯

先验概率,后验概率公式

计算题例题。

分类器和判别函数

image-20210627151306401

Bayes Decision Rule

image-20210627160755739

image-20210627151403936

原因:

image-20210627151435341

马氏距离;不同的sigma对应的不同决策边界。

选用Gaussian

分析简单:1.u,sigma足够确定唯一的搞死分布

2.线性无关代表独立分布

3.边缘密度和条件密度也是高斯分布

4.(中心极限定理)(我们想要建立模型的许多分布都非常接近正态分布。

决策边界是超二次曲面

•超平面,超平面对,超球体,超椭球,超抛物面,超双曲面。

朴素贝叶斯分类

类与任何其他特性的存在(或不存在)无关;即使这些特征相互依赖或依赖于其他特征的存在,朴素贝叶斯分类器认为所有这些属性都是独立的

image-20210627163222320

尽管朴素的设计和明显过于简化的假设,朴素贝叶斯分类器在许多复杂的现实情况下工作得相当好。

1.分子各个特征无关,直接展开;分母使用全概率公式求解;先验概率从给出的题目条件的标签分布给出。

例题:

image-20210627163842626

image-20210627163958320

image-20210627164005636

image-20210627164013811

修正:

某些值为0,乘积为0,添加修正项:

1image-20210627164402525

𝜆= 0:最大似然估计

𝜆= 1:拉普拉斯平滑Laplace Smoothing

KNN

通过最近邻计算,其中计算距离根据不同的公式,对应不同

SVM

Vapnik提出;

对偶公式应用:

image-20210626114631426

优化问题:

image-20210627213815608

Lagrangian:条件image-20210627213932441

拉格朗日约束问题KTT条件:

image-20210627214155365

求原来的最小值等价于拉格朗日式子的最小值

对偶问题:(推导忽略)

image-20210627215204857

最优化:SMO序列最小最优化

坐标上升法:注意:坐标上升需要一个与其中一个轴平行的步骤,因为每次只有一个变量被优化

由于约束条件的限制,如果只有一个变量,实际上也被固定了,至少两个。

a:

image-20210627215851925

w:kkt求导为0:只有支持向量位置a不为0,大于0;

image-20210627220017787

b:

在支持向量处,代入求解:

image-20210627220115842

没有支持向量?不能;如果是那样,那么a,w为0,并不是原始最优化问题。

image-20210627220348167

image-20210627220634359

软间隔SVM

image-20210627221106388

C为惩罚项;

image-20210627221534116

对偶问题:

求和在外面,对每个点一个约束:

image-20210627221834679

hinge loss

image-20210627223039184

image-20210627223051671

非线性SVM–核函数

K半正定;

image-20210626173850226

image-20210626173858239

Model Parameters Versus Hyperparameters

在训练阶段学习模型参数。

𝜆:超参数是必须在训练过程之外指定的值。

大多数机器学习算法都有几个设置,我们可以用来控制学习算法的行为。

这些设置称为超参数。

•超参数的值不被学习算法本身适应。

另一种超参数来自于训练过程本身。

•例如,随机梯度下降(SGD)优化需要学习率和批量大小。

•一些优化方法需要一个收敛阈值。

•这些也需要设置为合理的值,以便培训过程找到一个好的模型。

image-20210628004658574

将训练集分一部分验证集,每一次对特定超参数设置的试验都需要训练一个模型——一个内部优化过程,网格化寻优为每个超参数选择合理取值。假设 。那么网格化寻优方法将对每一对( ,)赋值后的 SVM 模型进行训练,并在验证集上分别评估它们的性能(或者在训练集内进行 cross-validation)。最终,网格化寻优方法返回在评估过程中得分最高的模型及其超参数。

CART

生成二叉树。

◼在每个节点上,将数据拆分为两个子节点。

◼对于回归,一个节点的预测值是该节点中所有观测值的平均响应变量。

69155997)]

Model Parameters Versus Hyperparameters

在训练阶段学习模型参数。

𝜆:超参数是必须在训练过程之外指定的值。

大多数机器学习算法都有几个设置,我们可以用来控制学习算法的行为。

这些设置称为超参数。

•超参数的值不被学习算法本身适应。

另一种超参数来自于训练过程本身。

•例如,随机梯度下降(SGD)优化需要学习率和批量大小。

•一些优化方法需要一个收敛阈值。

•这些也需要设置为合理的值,以便培训过程找到一个好的模型。

[外链图片转存中…(img-9GoUpJ8w-1630569155997)]

将训练集分一部分验证集,每一次对特定超参数设置的试验都需要训练一个模型——一个内部优化过程,网格化寻优为每个超参数选择合理取值。假设 。那么网格化寻优方法将对每一对( ,)赋值后的 SVM 模型进行训练,并在验证集上分别评估它们的性能(或者在训练集内进行 cross-validation)。最终,网格化寻优方法返回在评估过程中得分最高的模型及其超参数。

CART

生成二叉树。

◼在每个节点上,将数据拆分为两个子节点。

◼对于回归,一个节点的预测值是该节点中所有观测值的平均响应变量。

◼对于分类,预测的类是节点中最常见的类(多数投票)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值