2.1常用算法（易考推导---原理，推倒，重点）--机器学习

本文链接：https://blog.csdn.net/qq_34741686/article/details/82939760

1. 朴素贝叶斯：准备（选择特征并预处理），训练（根据样本类别及特征数据进行概率估计），应用（输入样本，输出类别）
前提：假设特征间相互独立且同样重要，最终求Max（P1，P2，P3… …Pn）–>p(y1|x)= p(x|y1)*p(y1) / p(x)
重点：
0概率问题：加入拉普拉斯平滑，对于有0样本的类，每个特征值的样本数量+1，再计算概率。
下溢问题：取对数，使得概率连乘转累加；
异常值/缺失值不敏感，且异常值会保持算法精度（降噪会降低泛化能力）
连续型：离散化（不好）；假设其满足某种概率分布，如高斯等，利用高斯代替。
常用模型：高斯，多项式，伯努利，高偏差，低方差
2. 线性/逻辑回归：逻辑回归是基于线性回归（广义），引入逻辑函数（sigmoid）使预测结果映射到（0-1）空间
推导：逻辑–损失函数（最大似然估计）并求导，梯度下降法求参；线性–损失函数（均方误差），最小二乘法或梯度下降求参。
重点：为何用最大似然估计？逻辑样本需满足伯努利分布，线性高斯分布？特征离散化的意义？特征相关度高？避免局部极值问题？多分类实现？
优点：形式简单可解释性好；效果好（特征工程要好）；速度快（复杂度与特征数量有关）；内存小；
缺点：准确率低；数据不平衡难处理；只适用线性，非线性数据麻烦；依赖特征筛选；
3. 决策树
原理：递归的选择最优特征，并用最优特征对数据集分割；每个子集递归调用此方法，直到满足约束条件（关键在特征选择和停止分裂的约束条件）
步骤：特征选择、决策树的生成和决策树的修剪
特征：
ID3信息增益；对可取值较多的特征有偏好，会导致泛化能力差；不能处理连续值；不能处理缺失值；过拟合
C4.5信息增益率；减少信息增益中由特征值较多带来的影响；可处理连续值；可处理缺失值，赋值均值–计算量大，内存受限
CART基尼指数；回归和分类，对特征空间二维划分（二叉树），根据最小均方误差选择分裂点及阈值，3个特征值采取1+2；
剪枝：考虑了所有节点的数据生成复杂树，容易出现过拟合。
预剪枝；定义高度，定义节点样本数阈值，定义阈值比较再分裂对系统性能的增长；
后剪枝；对置信度低的子树用叶子节点中的最频繁类道题；
缺失值处理：
分裂点选择时：忽略缺失样本；填充缺失值（众数或者均值）；剩余样本增益x未缺失数/总样本
已选定该属性为分裂点，某样本该属性缺失：忽略；填充；按比例分配；全部分配；单独分支
决策树生成，测试样本有缺失：预填充众数或均值；当选择a属性时终止。
重点：不需要归一，概率模型，数值缩放不影响分裂点位置；非线性数据效果好；特征会重复利用
----------泛化能力差；不适合高维；异常值敏感；易过拟合
4. K-means
原理：计算样本与质心距离，选择最近的质心为其归类；重新计算新的质心；迭代至类内距离或类间距离小于阈值。
步骤：选择初始质心、选择距离表示方式并未为样本分类，迭代至收敛
特征：选取样本空间的所有或部分特征均可。
重点：样本需要归一，选择合适的距离计算方法。距离要有预估并确定阈值。
5. 支持向量机
原理：对于线性可分数据：寻找硬间隔最大；对于线性近似可分数据：寻找软间隔最大；对于非线性可分数据：添加核函数并使软间隔最大。
分析1：寻找超平面 WX+b=0 使正负样本分布在其两侧；并选择距离平面最近的样本，使其距离最大。距离表示为：|wx+b| / ||w||，ps：对于正确的类当wx+b>0时，y=1；wx+b<0时，y=-1;因此出去绝对值符号，即y(wx+b) / ||w||
分析2：易知该平面是肯定存在的，假设满足要求的函数距离为fun, 则最大硬间隔即几何距离为dis = fun / ||w|| And 任意(xj,yj): yj(wxj+b) >=fun------对于平面，fun的大小对平面的位置和斜率不影响，因此可设fun=1
求解：对函数求导，使偏导为0即可。
对偶：加入拉格朗日乘子（对偶问题更容易求解，易于推广到非线性问题）
优化：SMO固定其中k-2个a值，优化另外两个a的值，通过迭代求得所有参数的解（所有参数满足KKT条件）。
软间隔：引入松弛变量。
核技巧：线性不可分样本空间需引入核技巧包括，线性，高斯，多项式。
特征：线性可分的样本空间
重点：噪声及异常值敏感，大规模数据训练困难（利用二次规划求解，设计n阶矩阵计算，需时间空间成本大），无法直接多分类，防止过拟合（松弛变量），交叉验证法确定惩罚因子，加大惩罚因子（对于样本不平衡问题）
6. 集成算法
由易到难–随机森林(bagging,降方差)–>adaboost–>GBDT–>xgboost
随机森林：使用CART树，随机选择样本，随机选择k<n个特征，多棵树的随机性使过拟合消除掉，若过拟合则减树或减k
adaboost: 给定每个样本相同权重，输入分类器，根据错误率更新样本权重并计算分类器权重，迭代至错误率为0，最终加权求和。！噪声敏感！
GBDT：每棵树学的都是之前所有树的结论和残差，基于之前树的损失函数和梯度下降方向来决定如何构建新树；！分决策树和回归树！