机器学习资料

最新推荐文章于 2021-07-09 01:16:34 发布

星雨晨曦

最新推荐文章于 2021-07-09 01:16:34 发布

阅读量1k

点赞数

分类专栏：机器学习笔记

本文链接：https://blog.csdn.net/qq_45180475/article/details/118230805

版权

笔记同时被 2 个专栏收录

29 篇文章 1 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

第一章绪论

1、机器学习
机器学习是这样的一个研究领域，它能让计算机不依赖确定的编码指令来自主的学习工作，是一种通过先验信息来提升模型能力的方式。
机器学习：机器学习是让智能体通过模拟或实现人类的学习行为来获取新的知识和技能，重新组织已有的知识结构，以不断改善自身智能。
机器学习是对能通过经验自动改进的计算机算法的研究。
2、机器学习算法
机器学习算法以数据为对象,它通过提取数据特征，发现数据中的知识并抽象出数据模型,作出对数据的预测。机器学习算法能够有效的前提是同类数据(包括训练数据和测试数据等)具有相同的统计规律性这一基本假设。
3、机器学习分类
按照学习的过程分类：监督学习（分类、回归、标注），无监督学习（聚类），半监督学习
按照完成的任务分类：聚类、分类、回归、标注。
3.1聚类
对样本数据实现物以类聚的效果的方法叫做聚类，聚类属于无监督学习。
聚类模型用于将训练数据按照某种关系划分为多个簇，将关系相近的训练数据分在同一个簇中。
分类：它用于将某个事务判定为属于预先设定的多个类别中的某一个。
回归模型不是属于哪一类，而是什么值，可以看作是将分类模型的类别数不限增加，即标签值不再只有几个离散的值了，而是连续的值。
标注：用于处理有前后关联关系的序列问题，输入是一个观测序列，输出是一个标签序列。（性能度量标准均方误差（MSE）度量）、留出法、交叉验证法、自助法。
聚类算法是对样本集按相似性进行分簇，因此聚类算法能够运行的前提是要有样本集
最大似然估计值就是使得已出现样本组合方式出现概率最大的模型参数。
最大后验估计：后验概率最大化。

K折交叉验证法的基本思路
首先将数据集D等分为K子集Di（i=1，2，3…，k）,然后依次保留其中一个子集作为测试集T，而将其余K-1个子集合进行合并作为训练数据集S。特例：留一法、5*2交叉验证法。

K-means算法基本思想

首先我们需要选择一个k值，也就是我们希望把数据分成多少类，然后分簇，让簇内的样本点更“紧密”一些，也就是说，让每个样本点到簇中心的距离更近一些。
k-means算法一般采用常见的欧式距离作为样本距离度量准则。
k-means的损失函数
k-means常采用样本点到本簇中心的距离的平方和作为“紧密”程度的度量标准，因此使这个距离的平方和尽量小是k-means的优化目标，这类优化目标一般统称为损失函数

影响聚类的主要因素
特征选取、分类准则、模式相似性测度。
SSE：每个样本点到本簇中心点的距离的平方和也称为误差平方和
在这里插入图片描述

MSE：每个样本点到本簇中心点的距离的平方和的均值也称为均方误差。
MSE=SSE/n
回归的定义
回归是确定多种变量相互依赖的定量关系的方法，通过对训练样本的学习，得到从样本特征集到连续值之间的映射，回归属于监督学习。
最小二乘法定义
最小二乘法是解析法，即用矩阵等数学知识直接求解线性回归模型的方法是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。

最小二乘损失函数的公式：
在这里插入图片描述

梯度下降法定义：梯度下降法是迭代法中利用导数就行优化的算法
公式如下
在这里插入图片描述

残差
残差就是指观察值与模型估计值之间的差值。
误差
误差是观察值与真实值之间的差。

残差又称为绝对误差

偏差
预计值的期望与真实值之间的差距。

降低偏差的方法
增加模型复杂度、增加训练样本、提取更多特征。

方差
预测值的离散程度，也就是离其期望值的距离。
泛化能力：模型对测试样本的预测能力称为泛化能力。
训练误差：模型在训练样本上产生的误差。
泛化误差：模型在测试样本上的误差称为泛化误差。
随着训练强度的增加，拟合模型越来越复杂，训练误差越来越小，而泛化误差则会先减少，但随后会急剧增加
过拟合
在训练集上误差低，测试集上误差高；

过拟合原因
模型把数据学习的太彻底，以至于把噪声数据的特征也学习到了，这样就会导致在后期测试的时候不能够很好地识别数据，模型泛化能力太差。
解决过拟合的方法
正则化、早停法、随机失活。
正则化
正则化是在样本集的损失函数中增加一个正则化项，来对冲模型的复杂度，模型越复杂，正则化值越大。
L2正则
L2正则化是通过衰减权重来实现抑制过拟合的。
在这里插入图片描述

欠拟合
模型在训练集上误差很高；
欠拟合原因
模型过于简单，没有很好的捕捉到数据特征，不能很好的拟合数据。
欠拟合是一种高偏差的情况。过拟合是一种低偏差，高方差的情况。
解决欠拟合的方法
增加模型复杂度、增加训练样本、提取更多特征。
k-折交叉验证
k-折交叉验证是将总样本集随机地划分为k个互不相交的子集。对于每个子集，将其所有其他样本集作为训练集训练出模型，将该子集作为验证集，并记录验证集每一个样本的预测结果。
奥卡姆剃刀定律
即“简单有效原理”，在所有可选择模型中能够很好地解释已知数据并且简单的模型才是最好的模型。
凸函数
凸函数中的局部最优点就是全局最优点，因此在机器学习中尽量使用凸函数作为损失函数。
ID3决策树算法
ID3决策树算法采用信息熵增益作为划分样本集的指标。
集成学习
集成学习的基本思想是集体决策，对多个模型的预测结果进行表决来提高准确性。
Bootstrap
就是对样本集进行有放回的抽样，抽取的样本数量与原本集数量相同。
欠采样
直接对训练集里的过多样本去掉一部分，使得正负样本的数量接近。欠采样会丢失信息。
过采样
对过少类别的样本在增加一些，增加样本的方法有简单重复复制和插值等，采用过采样时，要防止出现过拟合现象。
在这里插入图片描述

主成分分析是常用的降维方法之一，是找出主要成分来代替原数据，在选取主成分时选方差大的。
常用的降维方法
PAC(主成分分析)、奇异值分解、LDA

在这里插入图片描述

使用贝叶斯的前提是每个变量必须相互独立。
平滑是为了解决在极大似然估计中出现概率值为0的情况。
EM算法的特点
EM算法是一种迭代算法，是当最大似然估计法中出现隐参数时不能求导解决，它就可以用来求解含有隐参数的概率模型，EM属于无监督学习。
隐马尔克夫模型
是关于时序的概率模型，它可用于标注等问题。
维特比算法
用来求解隐马尔可夫模型的预测问题。
神经网络中过拟合的解决办法：正则化、早停法、dropout法。
神经网络中激活函数的作用
激活函数是用来加入非线性因素的，提高神经网络对模型的表达能力，解决线性模型所不能解决的问题。
池化层
池化层一般跟在卷积层之后，用于压缩数据和参数的数量。
批标准化层
可以抑制梯度消散，加速神经网络训练。
深度学习
是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并非是一个全新的概念,可理解为包含多个隐含层的神经网络结构。
最小二乘估计基本思想：误差最小化。
最大似然估计基本思想：概率最大化。
最大后验估计概率基本思想：后验概率最大化。
模型优化的基本方法：梯度下降法、牛顿迭代法。

梯度下降法的结束条件
迭代次数达到了最大设定；损失函数降低幅度低于设定的阈值。
梯度下降的缺陷：靠近极小值时收敛速度通常会很慢。
共轭梯度下降法基本思想：对搜索方向进行修正。
特征值均为正数，所以矩阵A是正定的。用梯度下降法可以验证。
牛顿迭代法缺陷：搜索方向难以确定，需要计算梯度、Hesse矩阵和其逆矩阵。
拟i牛顿法基本思想：使用近似矩阵来代替Hesse矩阵的逆矩阵。
梯度下降法缺陷：每次迭代需根据所有的训练样本确定参数更新方向，大样本情况下时间成本巨大。仅朝着目标函数值最小的方向更新参数，不具备跳出最优解的能力。
随机梯度法基本思想
使用少量样本点估计梯度方向用于参数更新。
优点：计算更为快速，降低时间成本。增加算法的随机性，赋予算法跳出局部最优解的能力。
最大期望法基本思想
先估计隐含变量分布情况，再在该分布情况下对模型参数进行最大似然估计或最大后验估计，迭代计算直至收敛。
MCMC方法收敛条件：细致平稳条件
正则化的目的是提升模型的泛化能力。