Datawhale_初级算法_Task1_泛化误差上界是假设空间容量的函数,假设空间容量越大,则(　　)。-CSDN博客

本文链接：https://blog.csdn.net/qq_40441895/article/details/98745630

Datawhale_初级算法_Task1

（1）机器学习的一些概念有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证

（2）线性回归的原理

（3）线性回归损失函数、代价函数、目标函数

（4）优化方法(梯度下降法、牛顿法、拟牛顿法等)

（5）线性回归的评估指标

（6）sklearn参数详解

1.机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
	(1)监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出；在监督式学习中，提供给算法的包含所需解决方案的训练数据，称为标签或标记。分类和预测变量都是经典的监督式学习任务。

常见的监督式学习的算法有：
K-近邻算法（k-nearst neighbors）、线性回归(linear regression)、逻辑回归(logistic regression)、支持向量机(SVM)、决策树和随机森林(decision trees and random forests)、神经网络(neural network)
(2)无监督学习:无监督学习的训练数据都是未标记的，系统会在没有老师的情况下进行
常见的无监督学习法算法：
①聚类算法：k-平均算法、分层聚类算法、最大期待算法
②可视化和降维：主成分分析、核主成分分析、局部线性嵌入、t-分布随机近邻嵌入
③关联规则学习：Apriori、Eclat
(3)泛化能力（generalization ability）是指由该方法学习到的模型对未知数据的预测能力，是学习方法本质上重要的性质。与之相关的就是泛化误差和泛化误差上界
①泛化误差就是所学习到的模型的风险函数或期望损失
②泛化误差上界：学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界，具体来说，就是通过比较两种学习方法的泛化误差上界的大小来比较他们的优劣。泛化误差上界通常具有以下性质：
i.泛化误差上界是样本容量的函数，当样本容量增加时，泛化上界趋于0
ii.泛化误差上界是假设空间容量的函数，假设空间容量越大，模型就越难学，泛化误差上界就越大。
（4）欠拟合：欠拟合就是模型没有很好的捕捉到数据特征，不能够很好的拟合数据。在训练集上表现为高偏差，低方差，欠拟合解决方法：
①添加其他特征项
②添加多项式特征，将线性模型通过添加二次项或者三次项让模型泛化能更强。
③减少正则化参数，正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数
（5）过拟合：过拟合就是模型把数据学习的太彻底了，以至于把噪声数据的特征也学习到了，这样就导致后期测试的时候不能很好的识别数据，即不能正确的分类。在训练集上具有高方差和低偏差，过拟合解决方法：
①重新清洗数据
②增大数据的训练量
③采用正则化方法
在这里插入图片描述
（6）交叉验证：交叉验证是在机器学习建立模型和验证模型参数是常用的方法。交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。交叉验证根据切分的方法不同，交叉验证分为下面三种：
①简单交叉验证
②折交叉验证
③留一交叉验证
2.线性回归的原理
线性回归：线性模型就是对输入特征加权求和，再加上一个完美称为偏置项的常数，以此进行预测
3.线性回归损失函数、代价函数、目标函数
损失函数（Loss Function ）是定义在单个样本上的，算的是一个样本的误差。
代价函数（Cost Function ）是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。
目标函数（Object Function）定义为：最终需要优化的函数。等于经验风险+结构风险（也就是Cost Function + 正则化项）。
损失函数和代价函数是同一个东西，目标函数是一个与他们相关但更广的概念，举例说明：
在这里插入图片描述
上面三个图的曲线函数依次为f1(x),f2(x),f3(x)，我们想用这三个函数分别来拟合真实值Y。
我们给定x，这三个函数都会输出一个f(X)，这个输出的f(X)与真实值Y可能是相同的，也可能是不同的，为了表示我们拟合的好坏，我们就用一个函数来度量拟合的程度。这个函数就称为损失函数(loss function)，或者叫代价函数(cost function)。
在这里插入图片描述
损失函数越小，就代表模型拟合的越好。那是不是我们的目标就只是让loss function越小越好呢？还不是。这个时候还有一个概念叫风险函数(risk function)。风险函数是损失函数的期望，这是由于我们输入输出的(X,Y)遵循一个联合分布，但是这个联合分布是未知的，所以无法计算。但是我们是有历史数据的，就是我们的训练集，f(X)关于训练集的平均损失称作经验风险(empirical risk)，所以我们的目标就是最小化经验风险。
4.优化方法(梯度下降法、牛顿法、拟牛顿法等)
https://www.cnblogs.com/shixiangwan/p/7532830.html
(1)梯度下降法是最早最简单，也是最为常用的最优化方法。梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。梯度下降法的搜索迭代示意图如下图所示：
在这里插入图片描述
梯度下降法的缺点：
　　（1）靠近极小值时收敛速度减慢，如下图所示；
　　（2）直线搜索时可能会产生一些问题；
　　（3）可能会“之字形”地下降。

从上图可以看出，梯度下降法在接近最优解的区域收敛速度明显变慢，利用梯度下降法求解需要很多次的迭代。
在机器学习中，基于基本的梯度下降法发展了两种梯度下降方法，分别为随机梯度下降法和批量梯度下降法。
比如对一个线性回归（Linear Logistics）模型，假设下面的h(x)是要拟合的函数，J(theta)为损失函数，theta是参数，要迭代求解的值，theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的样本个数，n是特征的个数。
在这里插入图片描述

梯度下降法包括批量梯度下降法和随机梯度下降法：
批量梯度下降—最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是对于大规模样本问题效率低下。
随机梯度下降—最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近，适用于大规模训练样本情况。
牛顿法（Newton’s method）
　　牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) = 0的根。牛顿法最大的特点就在于它的收敛速度很快。
　　具体步骤：
　　首先，选择一个接近函数 f (x)零点的 x0，计算相应的 f (x0) 和切线斜率f ‘(x0)（这里f ‘表示函数 f的导数）。然后我们计算穿过点(x0, f(x0)) 并且斜率为f’(x0)的直线和 x 轴的交点的x坐标，也就是求如下方程的解：
在这里插入图片描述
　　我们将新求得的点的 x 坐标命名为x1，通常x1会比x0更接近方程f(x) = 0的解，因此我们现在可以利用x1开始下一轮迭代。迭代公式可化简为如下所示：

　　已经证明，如果f’是连续的，并且待求的零点x是孤立的，那么在零点x周围存在一个区域，只要初始值x0位于这个邻近区域内，那么牛顿法必定收敛。如果f’ (x)不为0, 那么牛顿法将具有平方收敛的性能. 粗略的说，这意味着每迭代一次，牛顿法结果的有效数字将增加一倍。下图为一个牛顿法执行过程的例子。
　　由于牛顿法是基于当前位置的切线来确定下一次的位置，所以牛顿法又被很形象地称为是"切线法"。牛顿法的搜索路径（二维情况）如下图所示：
　　牛顿法搜索动态示例图：
在这里插入图片描述
关于牛顿法和梯度下降法的效率对比：
　　从本质上去看，牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想。）
　　根据wiki上的解释，从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。
在这里插入图片描述
注：红色的牛顿法的迭代路径，绿色的是梯度下降法的迭代路径。
牛顿法的优缺点总结：
　　优点：二阶收敛，收敛速度快；
　　缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。
　　拟牛顿法（Quasi-Newton Methods）
　　拟牛顿法是求解非线性优化问题最有效的方法之一，于20世纪50年代由美国Argonne国家实验室的物理学家W.C.Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠，使得非线性优化这门学科在一夜之间突飞猛进。
　　拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。另外，因为拟牛顿法不需要二阶导数的信息，所以有时比牛顿法更为有效。如今，优化软件中包含了大量的拟牛顿算法用来解决无约束，约束，和大规模的优化问题。
　　具体步骤：
　　拟牛顿法的基本思想如下。首先构造目标函数在当前迭代xk的二次模型：
在这里插入图片描述
　　这里Bk是一个对称正定矩阵，于是我们取这个二次模型的最优解作为搜索方向，并且得到新的迭代点：

　　其中我们要求步长ak 满足Wolfe条件。这样的迭代与牛顿法类似，区别就在于用近似的Hesse矩阵Bk 代替真实的Hesse矩阵。所以拟牛顿法最关键的地方就是每一步迭代中矩阵Bk的更新。现在假设得到一个新的迭代xk+1，并得到一个新的二次模型：
在这里插入图片描述
　　我们尽可能地利用上一步的信息来选取Bk。具体地，我们要求

　　从而得到

　　这个公式被称为割线方程。常用的拟牛顿法有DFP算法和BFGS算法。
线性回归的评估指标
分类问题的评价指标是准确率，那么回归算法的评价指标就是MSE，RMSE，MAE、R-Squared

均方误差（MSE）
MSE （Mean Squared Error）叫做均方误差。看公式
在这里插入图片描述
这里的y是测试集上的。用真实值-预测值然后平方之后求和平均。
均方根误差（RMSE）（Root Mean Squard Error）

MAE(平均绝对误差)

R Squared

上面分子就是我们训练出的模型预测的所有误差。
下面分母就是不管什么我们猜的结果就是y的平均数。
简化：
在这里插入图片描述
sklearn参数详解
决策树学习的算法通常是一个递归地（根据某一准则，信息增益或基尼系数）选择最优切分点/特征，并根据该特征对训练数据集进行分割，使得对各个子数据集有一个最好的分类过程，这一过程对应着对特征空间的划分，也对应着决策树的构建，继续在子数据集上循环这个切割的过程，直到所有的训练数据子集被基本正确分类，或者没有合适的特征为止。
sklearn.tree.DecisionTreeClassifier
(criterion=‘gini’, splitter=‘best’, max_depth=None, min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

criterion:特征选择的标准，有信息增益和基尼系数两种，使用信息增益的是ID3和C4.5算法（使用信息增益比），使用基尼系数的CART算法，默认是gini系数。
splitter:特征切分点选择标准，决策树是递归地选择最优切分点，spliter是用来指明在哪个集合上来递归，有“best”和“random”两种参数可以选择，best表示在所有特征上递归，适用于数据集较小的时候，random表示随机选择一部分特征进行递归，适用于数据集较大的时候。
max_depth:决策树最大深度，决策树模型先对所有数据集进行切分，再在子数据集上继续循环这个切分过程，max_depth可以理解成用来限制这个循环次数。
min_samples_split:子数据集再切分需要的最小样本量，默认是2，如果子数据样本量小于2时，则不再进行下一步切分。如果数据量较小，使用默认值就可，如果数据量较大，为降低计算量，应该把这个值增大，即限制子数据集的切分次数。
min_samples_leaf:叶节点（子数据集）最小样本数，如果子数据集中的样本数小于这个值，那么该叶节点和其兄弟节点都会被剪枝（去掉），该值默认为1。
min_weight_fraction_leaf:在叶节点处的所有输入样本权重总和的最小加权分数，如果不输入则表示所有的叶节点的权重是一致的。
max_features:特征切分时考虑的最大特征数量，默认是对所有特征进行切分，也可以传入int类型的值，表示具体的特征个数；也可以是浮点数，则表示特征个数的百分比；还可以是sqrt,表示总特征数的平方根；也可以是log2，表示总特征数的log个特征。
random_state:随机种子的设置，与LR中参数一致。
max_leaf_nodes:最大叶节点个数，即数据集切分成子数据集的最大个数。
min_impurity_decrease:切分点不纯度最小减少程度，如果某个结点的不纯度减少小于这个值，那么该切分点就会被移除。
min_impurity_split:切分点最小不纯度，用来限制数据集的继续切分（决策树的生成），如果某个节点的不纯度（可以理解为分类错误率）小于这个阈值，那么该点的数据将不再进行切分。
class_weight:权重设置，主要是用于处理不平衡样本，与LR模型中的参数一致，可以自定义类别权重，也可以直接使用balanced参数值进行不平衡样本处理。
presort:是否进行预排序，默认是False，所谓预排序就是提前对特征进行排序，我们知道，决策树分割数据集的依据是，优先按照信息增益/基尼系数大的特征来进行分割的，涉及的大小就需要比较，如果不进行预排序，则会在每次分割的时候需要重新把所有特征进行计算比较一次，如果进行了预排序以后，则每次分割的时候，只需要拿排名靠前的特征就可以了。
feature_importances_:特征重要性，以列表的形式输出每个特征的重要性
max_features_:最大特征数
n_classes_:类别数，与classes_对应，classes_输出具体的类别 n_features_:特征数，当数据量小时，一般max_features和n_features_相等
n_outputs_:输出结果数 tree_:输出整个决策树,用于生成决策树的可视化
decision_path(X):返回X的决策路径
fit(X, y):在数据集(X,y)上使用决策树模型
get_params([deep]):获取模型的参数
predict(X):预测数据值X的标签
predict_log_proba(X):返回每个类别的概率值的对数 predict_proba(X):返回每个类别的概率值（有几类就返回几列值） score(X,y):返回给定测试集和对应标签的平均准确率