自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 机器学习 主成分分析

主成分分析是一种常用的数据分析方法。PCA通过线性变换将原始数据变换成一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。给定n个样本(每个样本维度为p维)定义为样本在第一主成分/主方向上的投影:其中我们的目标是找到,使得的方差最大。本篇文章首先介绍了维度约减,维度约减是为了减少样本中不重要的特征,保留关键的特征来描述数据,这样的处理可以提升分类或识别的精度,也可以避免数据在高维空间中过于稀疏导致过拟合。

2023-12-23 14:46:35 819 1

原创 算法设计与分析 贪心法

在求解过程中,依据某种贪心标准,从问题的初始状态出发,直接去求每一步的最优解,通过若干次的贪心选择,最终得出整个问题的最优解。贪心算法不是对所有问题都能得到整体最优解,关键是贪心策略的选择,选择的贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关。具体步骤为:1.建立数学模型来描述问题;2.求解的问题分成若干个子问题;3.每一子问题求解,得到子问题的局部最优解;4.子问题的解局部最优解合成原来解问题的一个解。贪心法、动态规划法、分治法有什么区别呢?

2023-12-20 14:09:14 848 1

原创 算法设计与分析 分治法

分治法的优点:1、规模如果很小,则很容易解决。2、大问题可以分为若干规模小的相同问题。3、利用子问题的解,可以合并成该问题的解。4、分解出的各个子问题相互独立,子问题不再包含公共子问题。分治法的缺点:1.依赖于有待做出的最优选择通过上述实验,分治法是一种非常有用的算法,但是它并不可以适用所有类型的问题,它相对于蛮力法来说,在某些问题上会更优,但在某些问题上不一定有蛮力法好。例如,如果我们需要在一个小数据集中查找某个元素,蛮力法可能是更简单、更直接的方法。

2023-12-18 21:22:57 361

原创 机器学习 支持向量机

我们需要找出分类器中定义的w和b,为此我们要找到具有最小间隔的数据点,找到之后对该间隔最大化,就可以写作:​​​​​​对上述的式子直接求解非常困难,所以我们要将它转换成另一件更加容易求解的形式,如果令上述式子中min括号中的乘法都为1的话,那么就可以变成求||w||最小值来求最终解,但是事实并非如此,只有那些离超平面近的才为1,离超平面越远这个值也就越大。我们要求解d的最大化问题转化乘求||w||的最小化问题​,也就是。

2023-12-18 19:07:15 886

原创 机器学习 Logistic回归

机器学习中的logistic回归是一种常用的分类算法,它无需事先假设数据集分布,主要用于解决二分类问题,较少用来解决多分类的问题。我们从模型得到的预测类别的近似概率可以判断它是哪个类别,并且可以直接应用现有的数值优化算法求取最优的解,例如牛顿法也就是梯度下降法,还有最大似然估计等等。通过对logistic回归进行实验可以更好地理解该算法的性能和应用场景,从而更好地应用于实际问题中。

2023-12-02 15:33:16 826

原创 机器学习 朴素贝叶斯算法

若事件A1,A2,…构成一个完备事件组且都有正概率,则对任意一个事件B,有如下公式成立:●贝叶斯推断是推论统计的一种方法,该方法通过使用贝叶斯定理,在有更多的证据及信息时,更新特定假设的概率。●贝叶斯推理将后验概率推导为二个前件、先验概率及似然函数的结果。贝叶斯推断根据贝叶斯定理计算后验概率:E表示证据。(H|E)代表假定E成立的前提下,H成立的概率。P(H)是先验概率,是观察到数据E之前,假说H的几率。P(H|E)是后验概率,

2023-11-18 14:58:42 67 1

原创 机器学习 决策树

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶节点。内部结点表示一个特征或属性,叶节点表示一个类。●熵可以表示一个系统的混乱程度,系统越混乱,熵值越高;反之,熵值越低。●1948年香农提出了”信息熵(Entropy)“的概念。●假设在当前的样本集合D中第k类样本所占的比例为pk(k=1,2,3,......,n),,D表示样本的所有数量,为第k类样本的数量。Ent(D的值越小,则D的纯度越高。●计算信息熵时约定:若p= 0。

2023-11-05 14:21:30 209

原创 机器学习实战KNN模型的性能度量以及PR和ROC曲线绘制

在我们将学习的模型构造出来训练完以后,我们通常需要评估该模型的好坏。

2023-10-23 17:45:00 447

原创 机器学习实战K近邻算法红酒分类实例

归一化主要的作用是防止有些特征差值过大,这些特征对计算结果的影响最大,导致结果不准确,而我们普遍认为每个特征都应该是同等重要的。为了避免这种情况,我们通常采用的方法是将数据归一化,将任意取值范围的特征值转化为0到1区间内的值。输入13.2 3.3 2.2 18.4 97 1.78 0.83 0.6 1.88 10.5 0.54 1.5 672测试数据。该分类算法采用的是欧几里得算法,计算两点之间的距离,选择距离最小的K个点然后返回分类结果。因为该数据集只有一百多个样例,所以这边选择取出数据的百分之三十。

2023-10-09 20:37:46 1180 1

原创 机器学习环境安装

右键选择以管理员身份运行至此vscode安装完毕。

2023-09-25 20:01:23 43 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除