ml

最新推荐文章于 2024-08-30 21:34:59 发布

Yavv123

最新推荐文章于 2024-08-30 21:34:59 发布

阅读量217

点赞数

分类专栏：随便写写文章标签： ml

随便写写专栏收录该内容

3 篇文章 0 订阅

订阅专栏

线性回归算法梳理

1、机器学习的一些概念
2、线性回归的原理
3、优化方法
4、sklearn参数详解

1、机器学习的一些概念

有监督：
监督学习，就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。在人对事物的认识中，我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊，等等。我们所见到的景物就是输入数据，而大人们对这些景物的判断结果（是房子还是鸟啊）就是相应的输出。当我们见识多了以后，脑子里就慢慢地得到了一些泛化的模型，这就是训练得到的那个（或者那些）函数，从而不需要大人在旁边指点的时候，我们也能分辨的出来哪些是房子，哪些是鸟。监督学习里典型的例子就是KNN、SVM。
无监督：
无监督学习（也有人叫非监督学习，反正都差不多）则是另一种研究的比较多的学习方法，它与监督学习的不同之处，在于我们事先没有任何训练样本，而需要直接对数据进行建模。这听起来似乎有点不可思议，但是在我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展，我们完全对艺术一无所知，但是欣赏完多幅作品之后，我们也能把它们分成不同的派别（比如哪些更朦胧一点，哪些更写实一些，即使我们不知道什么叫做朦胧派，什么叫做写实派，但是至少我们能把他们分为两个类）。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起，而我们并不关心这一类是什么。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
泛化能力：
什么是泛化能力？
泛化能力就是模型对未知数据的预测能力。在实际当中，我们通常通过测试误差来评价学习方法的泛化能力。
泛化误差的定义
在这里插入图片描述
过拟合欠拟合：
所谓过拟合（over-fitting）其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。打个比喻就是当我需要建立好一个模型之后，比如是识别一只狗狗的模型，我需要对这个模型进行训练。恰好，我训练样本中的所有训练图片都是二哈，那么经过多次迭代训练之后，模型训练好了，并且在训练集中表现得很好。基本上二哈身上的所有特点都涵括进去，那么问题来了！假如我的测试样本是一只金毛呢？将一只金毛的测试样本放进这个识别狗狗的模型中，很有可能模型最后输出的结果就是金毛不是一条狗（因为这个模型基本上是按照二哈的特征去打造的）。所以这样就造成了模型过拟合，虽然在训练集上表现得很好，但是在测试集中表现得恰好相反，在性能的角度上讲就是协方差过大（variance is large），同样在测试集上的损失函数（cost function）会表现得很大。
所谓欠拟合呢（under-fitting）？相对过拟合欠拟合还是比较容易理解。还是拿刚才的模型来说，可能二哈被提取的特征比较少，导致训练出来的模型不能很好地匹配，表现得很差，甚至二哈都无法识别。
交叉验证：
交叉验证是将样本数据集分成两个互补的子集，一个子集用于训练（分类器或模型）称为训练集（training set）；另一个子集用于验证（分类器或模型的）分析的有效性称为测试集（testing set）。利用测试集来测试训练得到的分类器或模型，以此作为分类器或模型的性能指标。得到高度预测精确度和低的预测误差，是研究的期望。为了减少交叉验证结果的可变性，对一个样本数据集进行多次不同的划分，得到不同的互补子集，进行多次交叉验证。取多次验证的平均值作为验证结果*

2、线性回归的原理

线性回归的原理：
　　线性回归在假设特证满足线性关系，根据给定的训练数据训练一个模型，并用此模型进行预测。
损失函数：是定义在单个样本上的，算的是一个样本的误差
代价函数：是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。在线性回归中，最常用的是均方误差，在逻辑回归中，最常用的代价函数是交叉熵
目标函数：最终需要优化的函数。等于经验风险+结构风险（也就是CostFunction+正则化项）

3、优化方法

     ○梯度下降法：他通过每次在当前梯度方向（最陡峭的方向）向前“迈”一步，来逐渐逼近函数的最小值。梯度下降法根据每次求解损失函数带入的样本数，可以分为：全梯度下降（计算所有样本的损失），批量梯度下降（每次计算一个batch样本的损失）和随机梯度下降（每次随机选取一个样本计算损失）。现在所说的SGD（随机梯度下降）多指批量梯度下降。SGD的优点是操作简单，计算量小，在损失函数是凸函数的情况下能够保证收敛到一个较好的全局最优解，缺点是①α是一个定值（在最原始的版本），他的选取直接决定了解得好坏，过小会导致收敛太慢，过大会导致震荡而无法收敛到最优解②对于非凸问题，只能收敛到局部最优，并且没有任何拜托局部最优的能力
     ○牛顿法：牛顿法不仅使用了一阶导信息，同时还利用了二阶导来更新参数。牛顿法具有二阶收敛性，每一轮迭代会让误差的数量级呈平方衰减。牛顿法的优点是二阶收敛，收敛速度快，缺点是牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂
     ○拟牛顿法：拟牛顿法的本质洗饲昂视改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，他使用正定矩阵来近似Hessian矩阵的逆，从而简化了元素的复杂度。

○共轭梯度法：共轭梯度法是介于最速下降法和牛顿法之间的一个方法，他仅需利用一阶导数信息，但克服了最速下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点，共轭梯度法不仅是解决大型线性方程最有用的方法之一，也是解大型肥西那行最优化最有效的算法之一

线性回归评估指标：
a.均方误差（MES）:真实值-预测值然后平方之后求和平均 b.均方根误差（RMES）c.平均绝对误差（MAE）

4、sklearn参数详解

k-means：
在这里插入图片描述
参数的意义：
n_clusters:簇的个数，即你想聚成几类

init: 初始簇中心的获取方法

n_init: 获取初始簇中心的更迭次数，为了弥补初始质心的影响，算法默认会初始10次质心，实现算法，然后返回最好的结果。

max_iter: 最大迭代次数（因为kmeans算法的实现需要迭代）
tol: 容忍度，即kmeans运行准则收敛的条件

precompute_distances：是否需要提前计算距离，这个参数会在空间和时间之间做权衡，如果是True 会把整个距离矩阵都放到内存中，auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候
False,False 时核心实现的方法是利用Cpython 来实现的

verbose: 冗长模式（不太懂是啥意思，反正一般不去改默认值）

random_state: 随机生成簇中心的状态条件。

copy_x: 对是否修改数据的一个标记，如果True，即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的，就是是否对输入数据继续copy 操作，以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚。

n_jobs: 并行设置

algorithm: kmeans的实现算法，有：’auto’, ‘full’,
‘elkan’, 其中 ‘full’表示用EM方式实现

Yavv123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ml

线性回归算法梳理1、一些概念2、线性回归的原理4、sklearn参数详解1、一些概念有监督：监督学习，就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。在人对事物的认...
复制链接

扫一扫