自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 KNN(K近邻)算法

实际上,正如其名,KNN算法通过预测点所在位置附近K个样本点的类别,判断该点的类别。哪种类别的点多,就认为预测点属于哪种类别。虽然有很多种,比如曼哈顿距离(横纵坐标差的绝对值之和)、欧式距离等,但一般以欧氏距离为主,即。KNN算法中,最简单的方式就是直接算出预测点与所有点的距离,然后抽出前K近的点,进行比较。对训练数据依赖度特别大,过拟合、欠拟合问题难以权衡。效率低,每一次分类都要对训练数据进行计算。+可以处理分类问题,算法简单易懂。还可以处理回归问题,也就是预测。

2024-01-01 17:32:46 363

原创 机器学习中模型的评估与选择

误差:是模型真实输出与预测输出的差异,包括训练(经验)误差、测试误差、泛化误差等。假设测试集是从样本真实分布中独立采样获得,将测试集上的“ 测试误差”作为泛化误差的近似,所以测试集要和训练集中的样本尽量互斥。当然,为了解决过拟合问题,实际上一般不直接使用测试集评估模型,而是用验证集调优,在验证集上达到最佳效果后再用测试集确认效果。这样得到的测试集,用来评估模型,并通过在测试集上的效果,对模型进行调适,从而在测试集上获得最佳效果。个大小相似的互斥子集,每次用1个子集作为测试集,剩下的作为训练集,得到。

2024-01-01 17:17:13 388

原创 决策树的构建与处理

所谓预剪枝,就是通过提前停止树的构建,实现剪枝,主要方法有:预设高度、检测特征向量、设置实例数量最小值、增益评估。利用决策树进行决策,首先从根节点开始,逐步向下,直到符合条件的叶节点为止,得到最终结论或是进一步的判定问题。后剪枝,就是在整棵树构建完成后,自底向上,由叶节点开始尝试,对精度有提高的直接剪掉,否则保留。为此,C4.5算法结合了二者:先找增益高于平均的,再找其中增益率最高的,有效规避了二者的短处。为空时,对应的分支节点直接标记为叶节点,类别标记为其父节点样本数最多的类的叶节点,结束;

2024-01-01 14:45:56 342

原创 朴素贝叶斯分类

朴素贝叶斯分类,是众多贝叶斯分类算法里最为简单、最为常见的算法之一。求出所有的后验概率后,朴素贝叶斯算法对其比较,选出后验概率最大的,将样本归为其对应的类别。出现的频率近似或历史经验得到,本身独立于样本;考虑到朴素贝叶斯算法假设类别间互相独立,设。为了最大化后验概率,只需要保证分子最大(成立的置信度,一般是模型需要求取的。连续的,考虑使用概率密度函数。,朴素贝叶斯算法的核心在于求取。视作常数,忽略)即可。为后验概率,反映了得到样本。的初始概率,一般由样本中。得到的类先验概率,设。类样本组合的集合,则。

2024-01-01 10:51:04 311

原创 主成分分析(PCA)

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的无监督数据维度约减算法,其主要思想是将n维特征映射到k维主成分上,k维主成分是在原有n维特征的基础上重新构造出来的k维特征,且k<n。其中,每一个主成分对应的坐标轴都与前后主成分对应的坐标轴正交,且第i个主成分在样本集中具有第i大的方差。更高的维度下,可以首先找到一个使得投影方差最大的主成分,然后在这个基础上,找到和这个方向正交的另外一个使得余下的投影方差最大的主成分,也就是计算各维之间协方差。

2024-01-01 05:02:15 380

原创 支持向量机(SVM)

支持向量机(support vector machines, SVM)是一种二分类模型,用来解决二分类问题(将样本点分为正负两类),在机器学习中得到广泛应用。因此,对SVM而言,为了减少计算量,结合实际计算需求(只需要计算高维空间的内积),我们只需要求出高维空间内内积的计算方法即可。但感知机中保证间隔最大的超平面总是唯一的,且一定满足超平面到样本点的最小距离为。为超平面,线性可分的样本点集以超平面为界分为两块,一部分(平面正方向的正例)满足。实际上,在低维中线性不可分的样本集,到了高维往往是可分的。

2023-12-18 23:01:40 395

原创 LOGISTIC回归

一般地,线性模型为一个n元函数:记:则该模型的向量形式为:使线性模型更加拟合数据集,即:求得一个,使得对于有“顺序”的属性,如身高的高低,质量的多少,有时可以转化为一个区间内的连续变量。但大多数情况下(尤其是无序变量),需要转换为多元向量。如:乘坐地铁、公交车、骑行(三选一),若对其分别只进行一元赋值,则自变量之间并非互相独立。显然,只有转化为多元向量才能解决。(本例中,由于样本只能三选一,实际上设置二元向量即可满足独立性要求)设目标:使最小对求和的偏导,得解得其中原理:,连续可微。eg:设,则两边取对数,

2023-12-05 01:12:25 27

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除