Cpigpig-CSDN博客

原创机器学习主成分分析

主成分分析是一种常用的数据分析方法。PCA通过线性变换将原始数据变换成一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。给定n个样本(每个样本维度为p维)定义为样本在第一主成分/主方向上的投影：其中我们的目标是找到,使得的方差最大。本篇文章首先介绍了维度约减，维度约减是为了减少样本中不重要的特征，保留关键的特征来描述数据，这样的处理可以提升分类或识别的精度，也可以避免数据在高维空间中过于稀疏导致过拟合。

2023-12-23 14:46:35 828 1

原创算法设计与分析贪心法

在求解过程中，依据某种贪心标准，从问题的初始状态出发，直接去求每一步的最优解，通过若干次的贪心选择，最终得出整个问题的最优解。贪心算法不是对所有问题都能得到整体最优解，关键是贪心策略的选择，选择的贪心策略必须具备无后效性，即某个状态以前的过程不会影响以后的状态，只与当前状态有关。具体步骤为：1.建立数学模型来描述问题；2.求解的问题分成若干个子问题；3.每一子问题求解，得到子问题的局部最优解；4.子问题的解局部最优解合成原来解问题的一个解。贪心法、动态规划法、分治法有什么区别呢？

2023-12-20 14:09:14 861 1

原创算法设计与分析分治法

分治法的优点：1、规模如果很小，则很容易解决。2、大问题可以分为若干规模小的相同问题。3、利用子问题的解，可以合并成该问题的解。4、分解出的各个子问题相互独立，子问题不再包含公共子问题。分治法的缺点：1.依赖于有待做出的最优选择通过上述实验，分治法是一种非常有用的算法，但是它并不可以适用所有类型的问题，它相对于蛮力法来说，在某些问题上会更优，但在某些问题上不一定有蛮力法好。例如，如果我们需要在一个小数据集中查找某个元素，蛮力法可能是更简单、更直接的方法。

2023-12-18 21:22:57 379

原创机器学习支持向量机

我们需要找出分类器中定义的w和b，为此我们要找到具有最小间隔的数据点，找到之后对该间隔最大化，就可以写作：对上述的式子直接求解非常困难，所以我们要将它转换成另一件更加容易求解的形式，如果令上述式子中min括号中的乘法都为1的话，那么就可以变成求||w||最小值来求最终解，但是事实并非如此，只有那些离超平面近的才为1，离超平面越远这个值也就越大。我们要求解d的最大化问题转化乘求||w||的最小化问题，也就是。

2023-12-18 19:07:15 904

原创机器学习 Logistic回归

机器学习中的logistic回归是一种常用的分类算法，它无需事先假设数据集分布，主要用于解决二分类问题，较少用来解决多分类的问题。我们从模型得到的预测类别的近似概率可以判断它是哪个类别，并且可以直接应用现有的数值优化算法求取最优的解，例如牛顿法也就是梯度下降法，还有最大似然估计等等。通过对logistic回归进行实验可以更好地理解该算法的性能和应用场景，从而更好地应用于实际问题中。

2023-12-02 15:33:16 835

原创机器学习朴素贝叶斯算法

若事件A1，A2，…构成一个完备事件组且都有正概率，则对任意一个事件B，有如下公式成立：●贝叶斯推断是推论统计的一种方法，该方法通过使用贝叶斯定理，在有更多的证据及信息时，更新特定假设的概率。●贝叶斯推理将后验概率推导为二个前件、先验概率及似然函数的结果。贝叶斯推断根据贝叶斯定理计算后验概率：E表示证据。(H|E)代表假定E成立的前提下，H成立的概率。P(H)是先验概率，是观察到数据E之前，假说H的几率。P(H|E)是后验概率，

2023-11-18 14:58:42 80 1

原创机器学习决策树

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶节点。内部结点表示一个特征或属性，叶节点表示一个类。●熵可以表示一个系统的混乱程度，系统越混乱，熵值越高；反之，熵值越低。●1948年香农提出了”信息熵(Entropy)“的概念。●假设在当前的样本集合D中第k类样本所占的比例为pk(k=1,2,3,......,n)，,D表示样本的所有数量，为第k类样本的数量。Ent(D的值越小，则D的纯度越高。●计算信息熵时约定：若p= 0。

2023-11-05 14:21:30 216

原创机器学习实战KNN模型的性能度量以及PR和ROC曲线绘制

在我们将学习的模型构造出来训练完以后，我们通常需要评估该模型的好坏。

2023-10-23 17:45:00 485

原创机器学习实战K近邻算法红酒分类实例

归一化主要的作用是防止有些特征差值过大，这些特征对计算结果的影响最大，导致结果不准确，而我们普遍认为每个特征都应该是同等重要的。为了避免这种情况，我们通常采用的方法是将数据归一化，将任意取值范围的特征值转化为0到1区间内的值。输入13.2 3.3 2.2 18.4 97 1.78 0.83 0.6 1.88 10.5 0.54 1.5 672测试数据。该分类算法采用的是欧几里得算法，计算两点之间的距离，选择距离最小的K个点然后返回分类结果。因为该数据集只有一百多个样例，所以这边选择取出数据的百分之三十。

2023-10-09 20:37:46 1216 1

原创机器学习环境安装

右键选择以管理员身份运行至此vscode安装完毕。

2023-09-25 20:01:23 62 1

m0_67703565的博客