可你不堪一ji-CSDN博客

原创机器学习--主成分分析(PCA)

PCA 是（Principal Component Analysis ）的缩写，中文称为主成分分析法。它是一种维数约减（Dimensionality Reduction）算法，即把高维度数据在损失最小的情况下转换为低维度数据的算法。显然，PCA 可以用来对数据进行压缩，可以在可控的失真范围内提高运算速度，提高机器学习的效率，使较为复杂的数据简单化。所谓损失最小就是从高维向低维映射的时候误差最小，低维空间的描述是向量组，k维空间就用k个向量来描述这个空间。

2024-06-18 15:57:15 1071 1

原创机器学习--（SVM）支持向量机

支持向量机（support vector machines，SVM）是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化。SVM的目标就是要找到这个超平面。支持向量机思想直观，但细节复杂，涵盖凸优化，核函数，拉格朗日算子等理论。优点：能够处理高维数据、具有较强的泛化能力、适用于小样本数据、可以处理非线性问题、具有较好的鲁棒性和可解释性等。缺点：对参数的敏感性、计算复杂度高、对数据的缩放和噪声敏感、仅适用于二分类问题等。

2024-06-11 07:41:19 1012

原创机器学习——Logistic（逻辑）回归

本篇首先阐述Logistic回归的定义，然后介绍一些最优化算法，其中包括基本的梯度上升法和一个改进的随机梯度上升法，这些最优化算法将用于分类器的训练。尽管逻辑回归的名称中包含“回归”，但它实际上是用于分类的，特别是二分类问题。逻辑回归通过计算输入特征的线性组合，使用Sigmoid函数将输出值压缩0和1之间，表示某个类别发生的概率。通过设定一个阈值（如0.5)，可以将概率转换为类别输出。逻辑回归通常用于估计对象属于某一类别的概率，这是一个典型的分类任务。

2024-05-28 15:43:25 949

原创 [机器学习]朴素贝叶斯

dataSet:训练集 testSet:待测集 labels:样本所具有的特征的名称dataSet=[['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, '好瓜'],['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, '好瓜'],['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, '坏瓜'],

2024-05-14 19:01:40 739 1

原创机器学习之决策树

在机器学习中，决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。在构建决策树的过程中，关键步骤包括特征选择和递归构建。特征选择是通过选择最具有区分度的特征作为树的节点，以提高模型的准确性。递归构建则是将数据集划分为不同的子集，直到满足某个终止条件，比如信息增益、信息增益比或基尼系数等不再提升，或者达到预设的树的最大深度等。

2024-04-29 22:16:11 411

原创 [机器学习] 模型评估与选择

常见的分类模型评估指标包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 分数（F1 Score）、AUC（Area Under the Curve）等。这些指标可以通过混淆矩阵来计算。混淆矩阵是一个表格，展示了模型预测结果与实际结果的对比。

2024-04-16 16:35:11 1088

原创 KNN算法

KNN（K-Nearest Neighbors）算法是一种基础且直观的分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前K个最相似的数据，这就是K-近邻算法中“K”的出处，通常K是不大于20的整数。

2024-04-02 19:18:10 838 1

原创 Anaconda安装

登录。安装完成后，打开呈现下图即安装成功。

2024-04-01 22:28:41 128

m0_73531849的博客