机器学习目录
文章目录
概述
通过数据获取技能;
有可以学习的模式,编程无法实现,没有具体定义,有数据。
类别:
Linear Regression
目标函数:
机器学习问题转化为最优化问题:
目标损失函数:
算法:
对损失函数求导,要求伪逆矩阵;
Logistic Regression
01分类映射函数;
非线性,如何转化成最优化问题;
最大似然法;
如何对最大似然法求导,牛顿法+梯度下降法。
贴标签。
逻辑回归推导
牛顿法
PCA
作用:
可视化;数据压缩;噪声处理更准确;
协方差矩阵特征:
维度压缩;
SVD使用
特征提取算法:
两种方法:
目标方程
损失函数代数推导
最大类间方差,选取大的特征值
二维限制条件增加一个与第一维度无关
方差就是特征值,根据协方差矩阵计算出大的特征值,对应的特征向量就是w
算法
最小化类内损失
SVD
伪逆矩阵;
协方差矩阵时上面的式子展开后发现是协方差矩阵,求法还可以是xx‘;只关注它的特征向量,因此使用svd分解对x进行分解,计算更加简单,若要进行主成分提取,选取相应的维度数,进行选取。
X已经归一化;
归一化:x-x平均值,发现协方差中式子总是使用归一化后的值,直接归一化便于后序处理。
优点:
1.不需要计算协方差矩阵;
2.数值上更加精确,xx’可能会造成损失;
维度确定:
数据处理:对数据去相关;数据可视化;投影分类;
LDA
特征提取原则
Unsupervised setting: minimize the information loss
Supervised setting: maximize the class discrimination
2类:
原则:类内最小,类间最大;
计算出类内矩阵,类间矩阵;
使他们的商最大,因为分子分母都有theta,所以只有theta的方向重要,大小或者倍数对结果影响无关。
转化成langerlange问题求解。
求导得到解。
;会有多个特征值特征向量:
选取大的特征值对用的特征向量作为thete。
简化计算得到:
;算法步骤:
;
多类别:
Feature Selection
按照x1维度某个值可以把标签颜色分开。所以特征表现更好;
特征选择方法包裹式,过滤式,嵌入式;
包装方法
•使用机器学习算法作为黑盒来寻找特征的最佳子集。
•在模型“大数据”问题上通常不可行。
Wrapper Methods包裹式
增量或者减量;
过滤方法
•机器学习算法运行前选择的特征。
Filter Methods
Embedded methods嵌入式
作为机器学习算法的一部分,特征选择自然发生。
增加正则项;
Underfitting & Overfitting
当模型不能在训练集中获得一个足够低的误差值时,就会出现欠拟合。
•当训练误差和测试误差之间的差距过大时,就会发生过拟合;
Avoid Overfitting
防止过拟合:
1.增加测试样本数量2.适当减少容量,减少模型的复杂度,使之能融合模型数减少。3.添加正则项控制某些值保持较小值
l2norm正则项优点:
仍然是𝑤的二次函数,所以它的最小值可以在封闭形式中找到。
容量
函数的融合能力,次数越高能包含的拟合的曲线越多,容量越大。成为学习器的假设空间。
Avoid Overfitting:添加正则项防止过拟合,对某些参数做惩罚
图中的线代表正则化值相同,在靠近坐标轴越陡峭,越容易使某个wi为0,解释性更强,表示某个特征作用很小。
蓝色:平方误差项损失取值等值线,红色正则项等值线。l1更容易产生离散化的解,表明某些特征不重要,解释性强。
决策树
Divide-and-Conquer Algorithms分而治之
Top-Down Induction of Decision Trees;
应用
Ross Quinlan:
ID3,C4.5,C5.0;
Breiman et al.:
CART
ID3 Algorithm
信息增益偏向于选择具有大量值的属性
Intrinsic Information of An Attribute
C4.5信息增益比
修改信息增益,减少其对多值属性的偏向
•考虑分支机构的数量和规模
•通过考虑分割的内在信息来修正信息增益
ID3 信息增益
信息增益的计算
cart 基尼系数
CART (Classification And Regression Trees);
;
决策树的优点
•造价低廉
•对未知记录进行分类的速度非常快
•易于对小型树木进行解释
•对于许多简单的数据集,精确度可与其他分类技术相媲美
工业级算法
•一个算法要在广泛的现实应用中有用,它必须:
•允许数字属性
•允许缺失值
•在有噪音的情况下保持稳健
→ID3需要扩展以能够处理现实世界的数据
剪枝防止过拟合
采用留出法,留出验证集,对树剪之后是否提升做评估,有一些需要特殊:
预剪枝:生成过程中;
后剪枝:
首先生长一棵完整的树来捕获所有可能的属性交互;
•随后以自下而上的方式修剪成熟的树
Estimating accuracy of a tree on new data: “Test Set”
• Some post pruning methods need an independent data set:
“Pruning Set”
后剪枝方法:
Reduced Error Pruning (REP)
该剪枝方法考虑将书上的每个节点作为修剪的候选对象,决定是否修剪这个结点有如下步骤组成:
1:删除以此结点为根的子树
2:使其成为叶子结点
3:赋予该结点关联的训练数据的最常见分类
4:当修剪后的树对于验证集合的性能不会比原来的树差时,才真正删除该结点
• Cost-complexity Pruning (CCP)
该方法在Breiman1984年的经典CART中首次提到并使用。
一棵树的好坏用如下式子衡量:Rα(T)=R(T)+αC(T)Rα(T)=R(T)+αC(T)
其中R(T)R(T)表示该树误差(代价)的衡量;C(T)C(T)表示对树的大小的衡量(可以用树的终端节点个数代表)。αα表示两者的平衡系数,其值越大,树越小,反之树越大。
怎么用这个准则剪枝呢?
1.找到完整树的一些子树{Ti,i=1,2,3,…,mTi,i=1,2,3,…,m}。
2.分别计算他们的Rα(Ti)Rα(Ti),选择最小的Rα(Ti)Rα(Ti)所代表的树。
误差(代价)用训练样本,但最好十折计算。
4)Error-Based Pruning:基于错误的剪枝[6]
该方法由Quinlan在1992年的C4.5算法中首次提出并使用。使用测试集来剪枝。
对每个节点,计算剪枝前和剪枝后的误判个数,若是剪枝有利于减少误判(包括相等的情况),则减掉该节点所在分支。
5)Critical Value Pruning:
该方法由Mingers1987年发明。
树的生成过程中,会得到选择属性及分裂值的评估值,设定一个阈值,所有小于此阈值的节点都剪掉。
交叉验证;
Characteristics of Decision Tree
Parametric vs Nonparametric Models
决定边界
•多元分裂
(一)单个节点分裂可以有多个属性参与。
(一)寻找最佳的多变量标准比单变量分割更为复杂。
虽然多变量分割可以显著改善树的性能,但不如单变量分割受欢迎。
(三)主要基于输入属性的线性组合。
ii . C4.5构建单变量决策树
ii . CART可以构建多变量树
Regression Trees
Leaf Nodes:
• Predict the average value of all instances in this leaf
终止标准:非常重要!(否则每个叶中只有一个点):
•节点标准差的下界
•一个节点中示例数量的下界
•修剪标准:
•数值误差测量,如均方误差
缺失值处理
将x同时划分到所有子节点,权重为属性值对应子节点中调节为样本非缺失值在所有中所占的比例;
连续值处理
贝叶斯
先验概率,后验概率公式
计算题例题。
分类器和判别函数
Bayes Decision Rule
原因:
马氏距离;不同的sigma对应的不同决策边界。
选用Gaussian
分析简单:1.u,sigma足够确定唯一的搞死分布
2.线性无关代表独立分布
3.边缘密度和条件密度也是高斯分布
4.(中心极限定理)(我们想要建立模型的许多分布都非常接近正态分布。
决策边界是超二次曲面
•超平面,超平面对,超球体,超椭球,超抛物面,超双曲面。
朴素贝叶斯分类
类与任何其他特性的存在(或不存在)无关;即使这些特征相互依赖或依赖于其他特征的存在,朴素贝叶斯分类器认为所有这些属性都是独立的;
尽管朴素的设计和明显过于简化的假设,朴素贝叶斯分类器在许多复杂的现实情况下工作得相当好。
1.分子各个特征无关,直接展开;分母使用全概率公式求解;先验概率从给出的题目条件的标签分布给出。
例题:
修正:
某些值为0,乘积为0,添加修正项:
1
𝜆= 0:最大似然估计
𝜆= 1:拉普拉斯平滑Laplace Smoothing
KNN
通过最近邻计算,其中计算距离根据不同的公式,对应不同
SVM
Vapnik提出;
对偶公式应用:
优化问题:
Lagrangian:条件
拉格朗日约束问题KTT条件:
求原来的最小值等价于拉格朗日式子的最小值
对偶问题:(推导忽略)
最优化:SMO序列最小最优化
坐标上升法:注意:坐标上升需要一个与其中一个轴平行的步骤,因为每次只有一个变量被优化
由于约束条件的限制,如果只有一个变量,实际上也被固定了,至少两个。
a:
w:kkt求导为0:只有支持向量位置a不为0,大于0;
b:
在支持向量处,代入求解:
没有支持向量?不能;如果是那样,那么a,w为0,并不是原始最优化问题。
软间隔SVM
C为惩罚项;
对偶问题:
求和在外面,对每个点一个约束:
hinge loss
非线性SVM–核函数
K半正定;
Model Parameters Versus Hyperparameters
在训练阶段学习模型参数。
𝜆:超参数是必须在训练过程之外指定的值。
大多数机器学习算法都有几个设置,我们可以用来控制学习算法的行为。
这些设置称为超参数。
•超参数的值不被学习算法本身适应。
另一种超参数来自于训练过程本身。
•例如,随机梯度下降(SGD)优化需要学习率和批量大小。
•一些优化方法需要一个收敛阈值。
•这些也需要设置为合理的值,以便培训过程找到一个好的模型。
将训练集分一部分验证集,每一次对特定超参数设置的试验都需要训练一个模型——一个内部优化过程,网格化寻优为每个超参数选择合理取值。假设 。那么网格化寻优方法将对每一对( ,)赋值后的 SVM 模型进行训练,并在验证集上分别评估它们的性能(或者在训练集内进行 cross-validation)。最终,网格化寻优方法返回在评估过程中得分最高的模型及其超参数。
CART
生成二叉树。
◼在每个节点上,将数据拆分为两个子节点。
◼对于回归,一个节点的预测值是该节点中所有观测值的平均响应变量。
69155997)]
Model Parameters Versus Hyperparameters
在训练阶段学习模型参数。
𝜆:超参数是必须在训练过程之外指定的值。
大多数机器学习算法都有几个设置,我们可以用来控制学习算法的行为。
这些设置称为超参数。
•超参数的值不被学习算法本身适应。
另一种超参数来自于训练过程本身。
•例如,随机梯度下降(SGD)优化需要学习率和批量大小。
•一些优化方法需要一个收敛阈值。
•这些也需要设置为合理的值,以便培训过程找到一个好的模型。
[外链图片转存中…(img-9GoUpJ8w-1630569155997)]
将训练集分一部分验证集,每一次对特定超参数设置的试验都需要训练一个模型——一个内部优化过程,网格化寻优为每个超参数选择合理取值。假设 。那么网格化寻优方法将对每一对( ,)赋值后的 SVM 模型进行训练,并在验证集上分别评估它们的性能(或者在训练集内进行 cross-validation)。最终,网格化寻优方法返回在评估过程中得分最高的模型及其超参数。
CART
生成二叉树。
◼在每个节点上,将数据拆分为两个子节点。
◼对于回归,一个节点的预测值是该节点中所有观测值的平均响应变量。
◼对于分类,预测的类是节点中最常见的类(多数投票)