my_q-CSDN博客

原创机器学习与深度学习21-信息论

它是基于最大熵原理构建的，最大熵原理认为，在给定一些已知的约束条件下，最好的模型是具有最大熵的模型，即最均匀或最不确定的模型。在决策树的构建过程中，算法会尝试不同的特征和分裂点，计算它们的信息增益或基尼不纯度，然后选择具有最大信息增益或最小基尼不纯度的特征和分裂点来进行节点分裂。信息熵在机器学习和数据分析中有广泛应用，例如在决策树算法中，通过选择最大化信息增益（原始信息熵与划分后的条件熵之差）的特征来进行节点划分,需要注意的是，以上介绍的是离散型随机变量的信息熵计算方法。

2025-06-12 12:37:23 571

原创机器学习与深度学习20-数学优化

在机器学习中，损失函数（Loss Function）是用来衡量模型预测结果与真实标签之间的差异的函数。它是模型训练过程中的一个关键组成部分，通过量化模型预测的准确性或拟合程度来指导参数的优化。损失函数的选择取决于具体的机器学习任务和模型类型。不同的任务和模型可能需要使用不同的损失函数。评估模型性能：损失函数提供了一种对模型预测质量的度量方式。通过计算预测值与真实标签之间的差异，损失函数可以定量地衡量模型在训练数据上的拟合程度。更小的损失值表示模型预测结果与真实标签更接近，反之则表示模型预测的差异较大。

2025-06-12 12:20:11 625

原创机器学习与深度学习19-线性代数02

协方差矩阵的特征值和特征向量提供了关于数据结构和特征重要性的有用信息，在 PCA 中，我们将协方差矩阵的特征向量作为新的基向量，将数据投影到这些基向量上，构成新的特征空间。这些梯度可以用于更新权重矩阵，以最小化损失函数，并不断优化神经网络的性能，通过矩阵运算和逐元素操作，神经网络可以高效地进行前向传播和反向传播过程，实现输入数据的转换和网络参数的学习。矩阵的奇异值分解（Singular Value Decomposition，SVD）是一种重要的矩阵分解技术，它将一个矩阵分解为三个矩阵的乘积。

2025-06-11 16:59:21 677

原创机器学习与深度学习18-线性代数01

的梯度进行求解和令其为零，可以得到闭式解或者使用优化算法（如梯度下降）进行迭代求解，通过 linear algebra 的技术和求解方法，在 linear regression 中，我们可以更有效地拟合模型并找到最优的参数，以最小化预测误差。向量的范数是一种用于衡量向量大小或长度的函数。外积的结果是一个新的向量，其方向垂直于原始向量所在的平面，并且大小等于该平面的面积与两个向量长度的乘积。的列向量，表示模型的参数（权重和截距），在 linear regression 中，我们的目标是找到最优的参数向量。

2025-06-11 16:43:47 958

原创机器学习与深度学习17-概率论和统计学02

通过对样本进行研究和分析，我们可以推断出有关总体的特征、参数或关系的信息，抽样分布是指在重复从总体中抽取样本，并计算某个统计量（例如均值、比例等）的情况下，该统计量的分布。否则，我们无法拒绝零假设，即没有足够的证据支持新药物的疗效，但是请注意，实际的假设检验涉及更复杂的统计方法和假设情景，但这个案例提供了一个简化的示例来说明假设检验的概念和使用方法。标准差是方差的平方根，它表示数据点与均值之间的差异程度。p值（p-value）是假设检验中的一个度量，表示观察到的数据或更极端情况出现的概率，假设零假设为真。

2025-06-10 08:50:59 604

原创机器学习与深度学习16-概率论和统计学01

概率论和统计学是数学中重要的分支，用于研究随机事件和数据的分布、关联性以及不确定性。概率论是研究随机事件发生的可能性和规律的数学学科。它提供了一套工具和方法来描述和分析随机变量、随机过程以及他们之间的关系。概率论包括概率分布、随机变量、条件概率、期望值等基本概念，并通过概率模型和统计推断来预测和解释随机现象。统计学是一门研究收集、分析和解释数据以作出推断和决策的学科。统计学涉及数据的收集、汇总、可视化和推理分析，借助概率论中的概念和方法来建立和验证统计模型，并从样本中推断总体的特征和关系。

2025-06-09 10:26:27 957

原创机器学习与深度学习15-神经网络

神经网络（Neural Network）是一种机器学习算法，模仿人脑的神经系统结构和工作原理。它由多个称为神经元的节点（或单元）组成，这些节点通过连接（权重）相互传递信息，并在输入数据上执行复杂的非线性计算，基本原理为输入层（Input Layer）接收外部输入数据，并将其传递给下一层隐藏层（Hidden Layer）是位于输入层和输出层之间的一系列层，负责处理和转换输入数据输出层（Output Layer）产生最终的结果或预测每个连接都有一个相关的权重，用于调整输入值的重要性。

2025-06-09 09:55:04 1221

原创机器学习与深度学习14-集成学习

集成学习（Ensemble Learning）是一种机器学习方法，其基本思想是通过组合多个学习算法或模型的预测来提高整体性能和泛化能力。它的核心思想是通过汇总多个模型的意见，以减小单个模型的偏差和方差，从而提高模型的鲁棒性和准确性。组合多个模型：集成学习通过同时使用多个不同的学习算法或同一算法的不同设置来创建多个基本模型，这些模型通常被称为“弱学习器”多样性和独立性：为了确保集成模型的多样性，这些基本模型通常是在不同的子样本或特征子集上训练的，以捕获不同方面的模式。

2025-06-06 09:12:02 703

原创机器学习与深度学习13-K均值聚类

K均值聚类（K-means clustering）是一种常用的无监督学习算法，用于将数据集划分为K个不同的簇。该算法通过最小化簇内样本之间的平方误差和最大化簇间的距离来确定簇的位置。K均值聚类的主要目标是找到使得下述目标函数最小化的簇划分：J∑i1n∑k1Krik∥xi−μk∥2Ji1∑nk1∑Krik∥xi−μk∥2其中，n 表示样本数，K表示簇的数量，xix_ixi表示第 i个样本，ri。

2025-06-06 09:11:12 742

原创机器学习与深度学习12-K近邻算法

训练阶段：在训练阶段，算法会存储所有的训练样本数据及其所属的类别或标签测试阶段：在测试阶段，对于待分类或回归的样本，算法会找出与该样本最近的K个训练样本分类：对于分类问题，KNN算法使用这K个最近的训练样本中最常见的类别来预测待分类样本的类别。例如，如果K=3，这三个最近的训练样本分别属于类别A、B、B，那么待分类样本将被预测为类别B回归：对于回归问题，KNN算法使用这K个最近的训练样本的平均值或加权平均值来预测待回归样本的输出。

2025-06-05 09:56:13 776

原创机器学习与深度学习11-朴素贝叶斯

例如，对于自然语言处理任务，单词在文本中通常是相关的，但朴素贝叶斯假设它们是条件独立的，尽管朴素贝叶斯的朴素假设过于简化，但该算法在许多实际问题中仍然表现出色，尤其是在文本分类等领域。贝叶斯定理的核心思想是根据已知信息来更新我们对未知信息的信念，这在机器学习中用于分类问题的概率建模中非常有用，朴素贝叶斯算法之所以称为“朴素”，是因为它假设特征之间是条件独立的，即给定类别的情况下，特征之间没有关联。朴素贝叶斯（Naive Bayes）算法在处理特征之间的相关性时，有一个基本的假设，即特征之间是条件独立的。

2025-06-05 09:50:08 1157

原创机器学习与深度学习10-支持向量机02

多类别分类问题是指需要将数据分成多个不同类别或标签的问题，而不仅仅是两个类别（二分类问题），支持向量机（SVM）通常是用于二分类问题的，但可以通过不同的策略来处理多类别分类问题。比如上图中，左边是SVM的决策边界，右边是逻辑回归的决策边界。SVM的决策边界受支持向量的影响，这些支持向量是距离决策边界最近的数据点。支持向量机的可扩展性受到多个因素的影响，包括数据集的大小、特征维度、核函数的复杂性以及计算硬件的性能。因此，在实际应用中，需要综合考虑问题的复杂性和可用资源来选择合适的方法以加速SVM的训练过程。

2025-06-04 08:27:59 795

原创机器学习与深度学习09-支持向量机01

什么是支持向量机（SVM）？它主要用于解决什么类型的问题？支持向量机（Support Vector Machine, SVM）是一种强大的监督学习算法，主要用于分类和回归问题。SVM的核心思想是寻找一个最优的超平面或决策边界，以最大化不同类别数据点之间的间隔，并尽量避免误分类线性SVM（Linear SVM）考虑一个二元分类问题，其中我们有一个训练数据集，每个数据点都有一组特征 (X) 和一个标签 (y)，其中 (y) 可以是1或 -1（或任何两个不同的类别）。w⋅xb0w⋅xb。

2025-06-04 08:03:54 564

原创机器学习与深度学习08-随机森林02

总的来说，随机森林在分类和回归问题中都采用了集成学习的思想，通过组合多棵决策树的预测结果来提高模型的性能和泛化能力。通常，OOB误差是一个可靠的性能指标，尤其在模型中包含足够多的树的情况下。随机森林可以通过不同方法来评估特征的重要性，它们通常基于每个特征在模型中的使用频率和重要性来计算，以下是评估随机森林中特征重要性的两种常见方法。随机森林在回归问题中的工作原理：在回归问题中，随机森林同样是一个由多棵决策树组成的集成模型，但目标是预测连续数值输出而不是分类标签。使用OOB误差来评估模型性能的一般步骤。

2025-06-03 09:10:05 828

原创机器学习与深度学习07-随机森林01

随机森林（Random Forest）是一种集成学习算法，用于解决分类和回归问题。它基于决策树（Decision Trees）构建，并通过组合多个决策树来提高模型的性能和稳定性。随机森林的主要思想是通过随机选择样本和特征来构建多棵决策树，然后综合它们的预测结果来进行分类或回归。随机森林的工作原理为随机选择样本：从训练数据集中随机选择一定数量的样本（有放回抽样），这个过程称为"Bootstrap"抽样。这意味着每棵决策树的训练数据都是随机抽取的，可能包含重复的样本。

2025-06-03 09:08:52 1564

原创机器学习与深度学习06-决策树02

基尼不纯度是一种用于决策树中的划分准则，它用来度量一个节点的不纯度或混乱程度，基尼不纯度越低，表示节点的纯度越高，即该节点包含的样本更倾向于属于同一类别。与信息增益不同，基尼不纯度不依赖于对数，计算相对较为简单。基尼不纯度的计算公式为，对于节点t，pip_ipi表示类别i在节点t中的样本比例Ginit1−∑i1cpi2Ginit1−i1∑cpi2其中，c表示类别的数量。计算方式：信息增益使用对数计算，而基尼不纯度使用平方计算。

2025-05-31 09:29:43 924

原创机器学习与深度学习05-决策树01

剪枝是为了在保持模型预测能力的同时，减少模型对训练数据中噪声和细节的过度拟合，剪枝的基本思想是删除一些子树，使树变得更简单。剪枝的目标是找到一个合适的平衡点，即在保持模型性能的前提下，降低树的复杂度，剪枝操作的一般步骤为。过拟合通常表现为模型在训练数据上的误差非常低，但在测试数据上的误差却较高，在决策树中避免过拟合的方法有。需要注意的是，在决策树构建过程中，还可以应用剪枝（pruning）等技术来避免过拟合，提高模型的泛化性能。选择合适的划分准则和适当的剪枝策略对于构建高性能的决策树模型非常重要。

2025-05-30 08:17:46 1218

原创机器学习与深度学习04-逻辑回归02

ROC曲线（Receiver Operating Characteristic Curve）和AUC值（Area Under the ROC Curve）是用于评估二分类模型性能的常用工具ROC曲线ROC曲线是一种图形化工具，用于可视化二分类模型的性能。它以不同的分类阈值为横轴，以真正例率（True Positive Rate，也称为召回率）为纵轴，绘制出模型在不同阈值下的性能表现。

2025-05-29 11:10:34 1357

原创机器学习与深度学习03-逻辑回归01

在分类问题中，逻辑回归的交叉熵损失函数是最常见和推荐的选择，因为它能够测量分类模型的概率输出与实际标签之间的差异，并且具有良好的数学性质。逻辑回归的目标函数，通常也称为损失函数或代价函数，用于衡量模型的预测与实际观测值之间的差异.逻辑回归通常用于⼆分类问题，其目标是最⼤化观测数据属于正类别或负类别的概率，从⽽能够进行分类。表示Sigmoid函数，是⾃然对数的底数（约等于2.71828），z是实数输入，Sigmoid函数的作⽤在于将任何实数输⼊映射到⼀个介于0和1之间的概率值。

2025-05-28 10:36:48 969

原创机器学习与深度学习02-线性回归（续）

当模型中的自变量不增加解释力时，调整后的R平方值较低，总而言之，R平方和调整后的R平⽅是⽤于评估线性回归模型拟合优度的重要指标，可以帮助我们了解模型对数据的解释力和可靠性。上溢（Overflow）：上溢是指在计算中得到了⼀个非常大的数值，超出了计算机能够表示的最大浮点数的范围，在线性回归中，上溢通常发生在模型参数过大或数据特征之间的差异过大时，导致预测值迅速增加到超出计算机表示能力的范围。2.调整后的R平⽅（Adjusted R-squared）：调整后的R平方是对R平方的⼀种修正，考虑了⾃变量的数量。

2025-05-28 09:58:09 834

原创机器学习与深度学习01--线性回归

线性回归是⼀种⼴泛⽤于统计学和机器学习中的回归分析⽅法，⽤于建⽴⾃变量（特征）与因变量（⽬标）之间的线性关系模型。线性回归的基本原理是寻找⼀条直线（或者在多维情况下是⼀个超平⾯），以最佳地拟合训练数据，使得模型的预测与真实观测值之间的误差最⼩化。下⾯我们来详细解释线性回归的基本原理和假设。简单线性回归模型：多元线性回归模型：其中：y是因变量（需要预测的值）x1，x2，…xp是自变量（特征值），可以是一个或者多个。b0是截距（模型在⾃变量都为0时的预测值）。

2025-05-27 11:21:58 1042

原创虚拟机超详细安装教程--Linux-kali（Ubuntu同理）

虚拟机超详细安装教程--Linux-kali（Ubuntu同理）

2025-05-25 21:55:04 280

转载【详解】“过拟合”和“欠拟合”

机器学习中的“过拟合”和“欠拟合”详解

2025-05-20 20:35:33 60

原创 cse-cic-ids2018数据集的下载使用

论文复现--数据集下载cse-cic-ids2018数据集的下载使用

2025-04-11 16:56:07 439

原创 2025年春科研论文写作指导（如何写好科研论文）研究生网课期末考试

希望能帮助到大家

2025-04-07 14:11:49 820

原创 2024-雨课堂-工程伦理期末考试答案

2024-雨课堂-工程伦理期末考试答案

2025-04-07 10:20:53 812

原创如何搞定科研论文——DeepSeek在其他软件上的结合应用

学术AI，一键帮你搞定科研论文，结合DeepSeek让科研更简单更高效

2025-03-09 21:20:10 580

原创如何在自己的电脑上部署中科院学术专业版ChatGPT-全流程超详细版

手把手教会你如何在本地部署中科院学术专业版ChatGPT，帮助自己完成科研之路！

2025-01-17 18:32:37 2232

原创运行Ubuntu版本suricata过程中遇到的问题以及解决办法

我用的最笨的方法，依次检查每个包依赖，思路为“手动输入命令时，先安装第一个包wget，安装好后依次添加下一个包，方便校验，同时使用sudo apt-get upgrade检查更新状态，确保包依赖不丢失，再重新编译 make clean；该链接是我学习过程中发现的一个优秀博主的文章，作者“qianli”，觉得对大家可能帮助较大。该链接是我学习过程中发现的另外一个优秀博主的文章，作者“leeezp”，大家也可以试一下。如果你从我的上一篇文章过来，而且需要的是Ubuntu系统下的操作，可以参考以下链接。

2024-11-22 09:42:57 949 1

beijieweiyu的博客