m0_66119857-CSDN博客

原创 KNN（K近邻）算法

实际上，正如其名，KNN算法通过预测点所在位置附近K个样本点的类别，判断该点的类别。哪种类别的点多，就认为预测点属于哪种类别。虽然有很多种，比如曼哈顿距离（横纵坐标差的绝对值之和）、欧式距离等，但一般以欧氏距离为主，即。KNN算法中，最简单的方式就是直接算出预测点与所有点的距离，然后抽出前K近的点，进行比较。对训练数据依赖度特别大，过拟合、欠拟合问题难以权衡。效率低，每一次分类都要对训练数据进行计算。+可以处理分类问题，算法简单易懂。还可以处理回归问题，也就是预测。

2024-01-01 17:32:46 363

原创机器学习中模型的评估与选择

误差：是模型真实输出与预测输出的差异，包括训练（经验）误差、测试误差、泛化误差等。假设测试集是从样本真实分布中独立采样获得，将测试集上的“ 测试误差”作为泛化误差的近似，所以测试集要和训练集中的样本尽量互斥。当然，为了解决过拟合问题，实际上一般不直接使用测试集评估模型，而是用验证集调优，在验证集上达到最佳效果后再用测试集确认效果。这样得到的测试集，用来评估模型，并通过在测试集上的效果，对模型进行调适，从而在测试集上获得最佳效果。个大小相似的互斥子集，每次用1个子集作为测试集，剩下的作为训练集，得到。

2024-01-01 17:17:13 388

原创决策树的构建与处理

所谓预剪枝，就是通过提前停止树的构建，实现剪枝，主要方法有：预设高度、检测特征向量、设置实例数量最小值、增益评估。利用决策树进行决策，首先从根节点开始，逐步向下，直到符合条件的叶节点为止，得到最终结论或是进一步的判定问题。后剪枝，就是在整棵树构建完成后，自底向上，由叶节点开始尝试，对精度有提高的直接剪掉，否则保留。为此，C4.5算法结合了二者：先找增益高于平均的，再找其中增益率最高的，有效规避了二者的短处。为空时，对应的分支节点直接标记为叶节点，类别标记为其父节点样本数最多的类的叶节点，结束；

2024-01-01 14:45:56 342

原创朴素贝叶斯分类

朴素贝叶斯分类，是众多贝叶斯分类算法里最为简单、最为常见的算法之一。求出所有的后验概率后，朴素贝叶斯算法对其比较，选出后验概率最大的，将样本归为其对应的类别。出现的频率近似或历史经验得到，本身独立于样本；考虑到朴素贝叶斯算法假设类别间互相独立，设。为了最大化后验概率，只需要保证分子最大（成立的置信度，一般是模型需要求取的。连续的，考虑使用概率密度函数。，朴素贝叶斯算法的核心在于求取。视作常数，忽略）即可。为后验概率，反映了得到样本。的初始概率，一般由样本中。得到的类先验概率，设。类样本组合的集合，则。

2024-01-01 10:51:04 311

原创主成分分析（PCA）

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的无监督数据维度约减算法，其主要思想是将n维特征映射到k维主成分上，k维主成分是在原有n维特征的基础上重新构造出来的k维特征，且k<n。其中，每一个主成分对应的坐标轴都与前后主成分对应的坐标轴正交，且第i个主成分在样本集中具有第i大的方差。更高的维度下，可以首先找到一个使得投影方差最大的主成分，然后在这个基础上，找到和这个方向正交的另外一个使得余下的投影方差最大的主成分，也就是计算各维之间协方差。

2024-01-01 05:02:15 380

原创支持向量机（SVM）

支持向量机（support vector machines, SVM）是一种二分类模型，用来解决二分类问题（将样本点分为正负两类），在机器学习中得到广泛应用。因此，对SVM而言，为了减少计算量，结合实际计算需求（只需要计算高维空间的内积），我们只需要求出高维空间内内积的计算方法即可。但感知机中保证间隔最大的超平面总是唯一的，且一定满足超平面到样本点的最小距离为。为超平面，线性可分的样本点集以超平面为界分为两块，一部分（平面正方向的正例）满足。实际上，在低维中线性不可分的样本集，到了高维往往是可分的。

2023-12-18 23:01:40 395

原创 LOGISTIC回归

一般地，线性模型为一个n元函数：记：则该模型的向量形式为：使线性模型更加拟合数据集，即：求得一个，使得对于有“顺序”的属性，如身高的高低，质量的多少，有时可以转化为一个区间内的连续变量。但大多数情况下（尤其是无序变量），需要转换为多元向量。如：乘坐地铁、公交车、骑行（三选一），若对其分别只进行一元赋值，则自变量之间并非互相独立。显然，只有转化为多元向量才能解决。（本例中，由于样本只能三选一，实际上设置二元向量即可满足独立性要求）设目标：使最小对求和的偏导，得解得其中原理：，连续可微。eg:设，则两边取对数，

2023-12-05 01:12:25 27

m0_66119857的博客