Li.879-CSDN博客

原创机器学习 | 主成分分析（PCA）

PCA（principle component analysis），即主成分分析法，是一个非监督的机器学习算法，是一种用于探索高维数据结构的技术，主要用于对数据的降维，通过降维可以发现更便于人理解的特征，加快对样本有价值信息的处理速度，此外还可以应用于可视化（降到二维）和去噪。基本原理是通过线性变换将原始数据投影到新的坐标系，使得投影后的数据方差最大。PCA算法所要达到的目标是，降维后的数据所损失的信息量应该尽可能的少。

2024-01-01 14:50:52 6597

原创机器学习 | 支持向量机（SVM）

支持向量机（SVM）是监督学习算法，属于二分类模型。其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。支持向量机的学习算法是求解凸二次规划的最优化算法。在线性可分时，在原空间寻找两类样本的最优分类超平面。在线性不可分时，加入松弛变量并通过使用非线性映射将低纬度输入空间的样本映射到高纬度空间（升维）使其变为线性可分，就可以在该特征空间中寻找最优分类超平面。

2023-12-18 18:57:47 1410 1

原创机器学习 | Logistic回归

优点：Logistic回归是一种简单而高效的分类算法。模型相对简单，易于实现和理解，适用于二分类问题。Logistic回归广泛用于医学、社会科学、经济学等领域，特别使用于小样本数据集。模型的输出可以被解释为概率，对结果的解释直观，有助于理解预测的意义。在数据不是很复杂的情况下，Logistic回归很少过拟合，因为它对高维数据的需求相对较低。缺点：Logistic回归假设特征之间是线性关系，因此在处理非线性关系时表现较差。如果数据包含复杂的非线性关系，其他模型可能更适合。

2023-12-04 15:49:59 1110

原创机器学习 | 朴素贝叶斯

朴素贝叶斯分类器是基于贝叶斯定理的概率分类算法。其核心思想是通过计算后验概率来进行分类。对于给定的输入特征，通过计算每个可能类别的后验概率，选择具有最高概率的类别作为输出。朴素贝叶斯分类器的关键在于属性条件独立性假设。朴素贝叶斯算法的优缺点适用于大规模数据集对小规模数据表现良好对缺失数据不敏感，常用于文本分类能处理多类别问题属性之间相互独立：朴素贝叶斯的核心假设是特征之间相互独立，这在实际问题中往往并不成立，特别是在特征之间存在一定关联性的情况下，算法可能失效。不适用于连续型特征。

2023-11-19 14:31:50 197 1

原创机器学习 | 决策树算法

可以是树的深度达到预定值，节点包含的样本数小于某一阈值，或者节点的基尼系数或信息增益低于某一阈值。：通过根据数据特征不断分割数据集，将数据划分成具有相似特征的子集，从而实现分类或回归的目标。抽取作为特征值的属性，再计算以不同属性值作为特征值时的信息熵，找到最优数据划分时对应的属性值。：是决策树的最末端节点，表示数据的最终分类或回归值。：当停止条件满足时，将叶子节点分配给一个类别标签，即决策树的叶子节点，表示最终的决策结果。，可以对构建好的树进行剪枝，即删除一些子树或节点，以提高模型的。

2023-11-06 20:20:36 246

原创机器学习 | 模型评估方法（P-R曲线和ROC曲线）

机器学习模型的性能评估是至关重要的一部分。在分类问题中，我们通常希望了解模型的预测能力，也就是评估该模型对正类别和负类别的分类结果。PR曲线和ROC曲线是用于评估二分类模型性能的常用工具，通过在不同阈值下的精确度、召回率和真正率、假正率之间的权衡，评估模型的性能。

2023-10-23 20:58:19 4528

原创机器学习 | KNN算法

K-近邻（K-NearestNeighbor）算法属于监督学习方法。该算法采用测量不同特征值之间的距离进行分类。其基本法则是：未被标记的样本的类别标签由与其相近的k个样本决定。也就是说，该样本在特征空间中与其最相邻的k个样本中的大多数属于同一个类别。k值选择过小，用较小的领域中的训练样本进行预测，得到的邻近的数量过少，模型拟合的能力较强，但是当训练集中含有噪声样本时，噪声数据对测试数据的干扰会增大，容易过拟合，泛化能力较弱。k值选择过大，模型拟合能力较弱，训练误差会增大，容易欠拟合。

2023-10-09 21:25:13 184 1

原创机器学习 | 环境搭建（vscode+anaconda的安装+conda虚拟环境的激活）

机器学习基本环境搭建（vscode+anaconda的安装+conda虚拟环境的激活）

2023-09-25 21:27:20 128 1

m0_65437885的博客