东方幻御-CSDN博客

原创 PCA——主成分分析

数据降维是一种将高维数据转换为低纬数据的技术，即将数据的特征数量减少，从而减少数据的大小和复杂性。通过本次实验，了解到数据降维的作用，简化特征的复杂程度，减少训练模型计算量，PCA降维的衡量指标：降维后，在各保留维度中的方差要最大，因为方差越大数据越散，防止了数据重叠导致信息失真。由上图可知，所有样本点到M直线的距离和（蓝色线段长度）小于所有样本点到N直线的距离和（绿色线段长度），优先选择M直线。4、如果样本到直线的距离小或者投影点到原点的距离大，那么直线上的投影点就能更好的描述样本的分布情况。

2024-06-16 22:22:56 788

原创机器学习——支持向量机（SVM）

上左图显示了三种可能的线性分类器的决策边界：虚线所代表的模型表现非常糟糕，甚至都⽆法正确实现分类。其余两个模型在这个训练集上表现堪称完美，但是它们的决策边界与实例过于接近，导致在面对新实例时，表现可能不会太好。右图中的实线代表SVM分类器的决策边界，不仅分离了两个类别，且尽可能远离最近的训练实例。

2024-06-10 19:22:32 1058

原创机器学习——逻辑回归

sigmoid函数# 测试函数并展示图像plt.show()结果展示：思路：sigmoid 函数将z值映射到 0 到 1 之间的区间内,从而可以将输出解释为概率值。当z趋近于正无穷时,sigmoid 函数的输出趋近于 1,表示样本属于正类的概率很高;当z趋近于负无穷时,sigmoid 函数的输出趋近于 0,表示样本属于负类的概率很高。np.exp(-z)就是计算指数函数 e^(-z) 的值在分类任务中,通常会设置一个阈值(如 0.5),如果预测概率大于阈值,则将样本分类为正类;

2024-05-28 15:43:58 3315 1

原创机器学习---朴素贝叶斯

朴素贝叶斯算法的核心思想是通过考虑特征概率来预测分类，即对于给出的待分类样本，求解在此样本出现的条件下各个类别出现的概率，哪个最大，就认为此待分类样本属于哪个类别。朴素贝叶斯是一种分类算法，经常被用于文本分类，它的输出结果是某个样本属于某个类别的概率。之所以被称为“朴素”，主要在于它做出了一个假设，即每个特征是相互独立的。朴素贝叶斯算法的核心假设是特征之间的独立性，也就是说，每个特征对于分类结果的贡献是相互独立的。尽管这个假设在现实世界中往往不成立，但朴素贝叶斯算法仍然在许多实际问题中表现良好。

2024-05-13 18:57:33 898

原创机器学习-决策树

是⼀种树形结构，本质是⼀颗由多个判断节点组成的树其中每个内部节点表示⼀个属性上的判断，每个分⽀代表⼀个判断结果的输出，最后每个叶节点代表⼀种分类结果。决策树分类原理信息熵首先先从熵开始理解1从信息的完整性上进⾏的描述当系统的有序状态⼀致时，数据越集中的地⽅熵值越⼩，数据越分散的地⽅熵值越⼤。2从信息的有序性上进⾏的描述当数据量⼀致时系统越有序，熵值越低；系统越混乱或者分散，熵值越⾼。所以信息熵是度量样本集合纯度最常⽤的⼀种指标。信息熵公式：D为样本的所有数量，C。

2024-04-30 12:12:39 1112

原创人工智能-常见模型评估(基于sklearn实现)

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。按照数据集的目标值不同，可以把模型评估分为分类模型评估和回归模型评估。

2024-04-15 20:48:04 1323 1

原创不使用sklearn新手都能实现的KNN算法

KNN算法：k最近邻(k-Nearest Ne ighbor)算法是比较简单的机器学习算法。它采用测量不同特征值之间的距离方法进行分类。如果一个样本在特征空间中的多个最近邻(最相似〉的样本中的大多数都属于某一个类别，则该样本也属于这个类别。欧几里得距离：衡量的是多维空间中两点之间的绝对距离，表达式如下归一化：归一化是一种数据处理方式，能将数据经过处理

2024-03-27 20:11:08 998

原创 Anaconda安装图文教程

Anaconda的conda工具简化了跨操作系统的包和环境管理，它提供了一个灵活的数据科学平台，具有全面的包管理和创建独立项目环境的能力。Anaconda广泛的开源包分发和简单的环境管理能够让我们快速部署环境，进行包管理与环境管理。

2024-03-06 21:25:26 863 1

m0_73674545的博客