`咔咔`-CSDN博客

原创【机器学习】主成分分析（PCA）

主成分分析（Principal Component Analysis，简称PCA）是一种常用的无监督学习算法，用于降低数据维度并发现数据中的隐藏结构。它的主要思想是将原始数据投影到一个新的坐标系中，使得投影后的数据具有最大的方差，从而尽可能保留原始数据的信息。

2024-01-01 17:55:34 958

原创【机器学习】支持向量机(Support Vector Machine)

支持向量机（Support Vector Machine，SVM）是一种用于分类和回归的监督学习算法。SVM的目标是找到一个最优边界，将不同类别的数据点分开。在SVM中，我们把数据点看做是n维空间中的点，每个点有n个特征。：在SVM中，我们通过找到一个超平面（或者说是一个线性决策边界），将不同类别的数据点分开。决策边界可以是直线、曲线或者高维空间中的超平面等形式。：支持向量是离决策边界最近的样本点，它们对于决策边界的位置起着关键作用。SVM算法的核心思想就是寻找最优的决策边界和支持向量。

2023-12-18 21:01:01 1908 1

原创【机器学习】logistic回归模型

Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数，求解过程可以由最优化算法来完成。在最优化算法中，最常用的就是梯度上升算法，而梯度上升算法又可以简化为随机梯度上升算法。随机梯度上升算法与梯度上升算法的效果相当，但占用更少的计算资源。此外，随机梯度上升是一个在线算法，它可以在新数据到来时就完成参数更新，而不需要重新读取整个数据集来进行批处理运算。

2023-12-04 10:19:00 1207

原创【机器学习】朴素贝叶斯

在朴素贝叶斯的分类模型中，假设输入变量之间是独立的，这个假设在实际数据中可能不成立，但该技术在大量复杂问题上仍然表现出色。优点：朴素贝叶斯算法分类效率稳定，支持多分类任务，对缺失数据不敏感，算法简单，模型容易解释，计算量小，支持海量数据以及支持增量式计算，可用作在线预测。朴素贝叶斯算法假设所有特征的出现相互独立互不影响，每一特征同等重要，又因为其简单，而且具有很好的可解释性一般。相对于其他精心设计的更复杂的。从上述例子中的预测结果中，我们可以看到类别2对应的后验概率值最大，所以我们认为类目2是最优的结果。

2023-11-20 22:46:37 169 1

原创【机器学习】决策树

每个结点包含的样本集合根据属性测试的结果划分到子结点中，根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定的测试序列。增益率准则就可取值数目较少的属性有所偏好，因此，C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。：表示事物不确定性的度量标准，可以根据数学中的概率计算，出现的概率就大，出现的机会就多，不确定性就小（信息熵小）。其中，|Ck|为第类样本的数目，|D|为数据集D的数目。

2023-11-03 17:10:52 224

原创【机器学习】模型评估

模型的准确率（Accuracy）是指模型在测试集上预测正确的样本数占总样本数的比例。通常用公式表示为：准确率 = 预测正确的样本数 / 总样本数在二分类问题中，如果将真正例定义为模型正确预测的正例数，真反例定义为模型正确预测的负例数，假正例定义为模型将负例错误地预测为正例的样本数，假反例定义为模型将正例错误地预测为负例的样本数，那么准确率可以进一步细分为：准确率 = (真正例 + 真反例) / (真正例 + 真反例 + 假正例 + 假反例)准确率是评估模型性能的基本指标之一。

2023-10-23 17:01:32 4041

原创 KNN算法（邻近算法）

KNN（K- Nearest Neighbor）法即K最邻近法，最初由 Cover和Hart于1968年提出，是一个理论上比较成熟的方法，也是最简单的之一。该方法的思路非常简单直观：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。简单来讲，KNN就是“”的一种分类算法。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN是一种基于实例的学习，属于懒惰学习，即没有显式学习过程。

2023-10-09 16:58:47 1865 1