机器学习
文章平均质量分 60
Mr Gao
一个爱好分享的编程学习者,关于博客有不懂的可以留言,基本看到就会回复,最后,希望我的博客可以帮助你们解决一些问题,
展开
-
群智优化:探索BP神经网络的最优配置
鸢尾花数据集最初由Edgar Anderson测量得到,而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章中被引入到统计和机器学习领域数据集特征:鸢尾花数据集包含了150个样本,每个样本有4个特征,这些特征是从花朵的尺寸测量中得到的,具体包括:花萼长度(sepal length):在厘米单位下的花朵萼片的长度。花萼宽度(sepal width):花萼片的宽度。花瓣长度(petal length):花瓣的长度。花瓣宽度(petal width):花瓣的宽度。原创 2024-06-25 18:34:33 · 316 阅读 · 0 评论 -
神经网络-万能近似定理的探索
万能近似定理: ⼀个前馈神经⽹络如果具有线性层和⾄少⼀层具有 “挤压” 性质的激活函数(如 sigmoid 等),给定⽹络⾜够数量的隐藏单元,它可以以任意精度来近似任何从⼀个有限维空间到另⼀个有限维空间的 borel 可测函数。我们可以通过两个 sigmoid 函数 (y = sigmoid(w⊤x + b)) ⽣成⼀个 tower,如图:使用PyTorch库来执行数值计算,首先通过 torch.linspace 函数创建了一个从0到3的等差数列,其元素数量由变量 sample_num 决定。原创 2024-06-11 18:38:13 · 382 阅读 · 0 评论 -
基于词频统计的聚类算法(kmeans)
基于词频统计的聚类算法(kmeans)原创 2024-05-30 18:37:52 · 271 阅读 · 0 评论 -
基于鸢尾花数据集的四种聚类算法(kmeans,层次聚类,DBSCAN,FCM)和学习向量量化对比
基于鸢尾花数据集的聚类分析原创 2024-05-06 23:56:43 · 912 阅读 · 0 评论 -
鸢尾花数据集的KNN探索与乳腺癌决策树洞察
今天博主做了这个KNN和决策树的实验。介绍一下数据集:威斯康星州乳腺癌数据集(Wisconsin Breast Cancer Dataset)是一个经典的机器学习数据集,它最初由威斯康星州医院的Dr. William H. Wolberg收集。这个数据集被广泛用于分类任务、特征选择、模型评估等机器学习任务和实验中 数据类型:这是一份多变量数据集,包含了乳腺癌的生理参数。数据集特征:特征:数据集由 30 个特征组成,这些特征是图像分析得到的,包括纹理、面积、平滑度、凸性、颗粒度等统计参数。目标变量原创 2024-04-16 17:38:30 · 724 阅读 · 0 评论 -
波士顿房价预测案例(python scikit-learn)---多元线性回归(多角度实验分析)
Scikit-learn(全称:Simple and Efficient Tools for Machine Learning,意为“简单高效的机器学习工具”)是一个开源的Python机器学习库,它提供了简单而高效的工具,用于数据挖掘和数据分析。Scikit-learn主要特点包括:丰富的算法库、易于使用、高效的性能、数据预处理和特征选择、模型评估和选择、可扩展性、社区支持。波士顿房价数据集是一个著名的数据集,它在机器学习和统计分析领域中被广泛用于回归问题的实践和研究。原创 2024-04-03 22:25:38 · 3668 阅读 · 2 评论 -
神经网络之万能定理python-pytorch实现,可以拟合任意曲线
你们可能觉得这个拟合好像也一般啊,其实不是,我这个问题非常难,基本上网上的代码都是拟合效果很差的,数据的话,感兴趣的,可以私聊我,我可以发给你们。这个实现想做到博主这个效果的,很难,因为博主做了大量实现,发现,其实严格意义上的万能定理的实现其实是需要很多的考虑的。另外随着训练轮数和神经元的增加,实际上我们的效果可以真正实现万能定理。原创 2024-03-02 00:07:58 · 1034 阅读 · 2 评论 -
浅谈机器学习中的概率模型
之所以会有这样的原因,是因为比如两个特征之间有着正相关或者负相关的关系,那么通过上面的方法,虽然没有考虑特征之间的关系,但是特征对于样本分类的影响还是会很大程度的考虑其中,所以,往往我们假设特征之间是独立的,去进行建模往往也可以取得很好的成绩,因为在建模的时候,特征之间的相关性对于样本分类的影响,会被考虑到。在博主看来,我们去进行一些概率计算的简化时,需要考虑是否这种简化对于我们的任务有着较大的影响,我们的模型是否在建模的时候,即使由于概率计算的简化导致信息流失,但是模型可以很大程度,去弥补这种信息流失。原创 2023-10-14 22:02:54 · 592 阅读 · 0 评论 -
从实践的角度谈谈主成分分析
(1)第一点,我认为主成分分析在使用之前,我们需要对自己的任务先要有着清晰的理解,主成分分析它的作用是固定的,为什么说主成分分析作用是固定的,因为这个算法有着固定的计算方法,如果我们想要去改进,往往需要有着很深厚的数学功底,所以往往人们都采用主成分分析的原型算法去使用,所以,他并不是灵活多变的,在使用这个算法之前,我们需要深刻了解这个算法,并知道这个算法是否真的对我们的任务有着益处。到此就证明完毕了,所以,X的协方差矩阵对应特征值越大的特征向量,就是我们想要的投影向量。的协方差矩阵的特征向量,原创 2023-10-13 14:47:29 · 147 阅读 · 0 评论 -
浅谈wor2vec,RNN,LSTM,Transfermer之间的关系
但是也存在冒险,在学习的时候,神经网络需要自己知道Q K矩阵是为了权值而学习的,而V矩阵则是对数据进行最后的信息提取而学习的。我们可以给与transfermer更多的提示,让其对于这三个矩阵的学习更加具有目的性,这样或许可以更好的提升transfermer的学习能力,否则直接让其再目标函数的驱动下去学习这三个矩阵,目的性较弱,且会局限于数据初始化。下面是RNN的模型示意图。我们可以很显然的发现,RNN在做一些任务的时候,是一个个的输入一个句子的单词,这样的计算方式,会导致忽略句子内单词之间的内在联系。原创 2023-10-05 16:24:46 · 489 阅读 · 0 评论 -
神经网络万能近似定理探索与实验
可以看到模型确实是由一定效果的,但是后面为什么跑出来的结果是一个直线呢,因为博主在推导的时候发现,w2i,i=1,2,的权重迭代时等量的,所以,才会出现这样的情况,因为神经元参数等量更新了,而且时同时更新,而且经过sigmoid转化,数值变为了1,才会发生这样的拟合情况。当然,越复杂的函数可能就需要越多的神经元,同时神经元初始化的数据也很重要,是否能很好的学习我们设定的函数并不是那么容易需要很多因素的功能作用,都需要我们去调整。好的,本次实验到此位置,感兴趣的同学可以多学习一下哈。现在我们调整一下数据集。原创 2023-07-12 00:41:35 · 828 阅读 · 0 评论 -
python pytorch 纯算法实现前馈神经网络训练(数据集随机生成)-续
上一次的代码博主看了,有两个小问题其实,一个是,SGD优化的时候,那个梯度应该初始化为0,还一个是我并没有用到随机生成batch。博主修改了代码,并且加入了accuracy图像绘制的代码。可以看到这样看下来,效果就很不错了。原创 2023-07-11 21:59:46 · 868 阅读 · 0 评论 -
机器学习-sigmoid函数和relu函数-个人解读
而且根据输入激活函数随机性的原理我们可以知道,经过这个激活函数处理,有一般的概率输出为0,由反向传播的原理知道,经过激活函数输出为0,那么这激活函数在这次样本输入中其梯度就为0,也就是不会被更新,且该神经元的输出也不会对最终结果再有影响。第二,就是relu函数的真正精髓,每次训练会随机的让让很大一部分神经元失灵,只更新部分神经元,每次更新的部分神经元是随机的,在这种情况下,每次被更新的神经元组合是很复杂的,相同性很低,那么就可以有效的让神经元独立学习,孤军奋战,不那么被其他神经元影响,做出自己的有利贡献。原创 2023-07-10 20:07:07 · 4263 阅读 · 0 评论 -
python pytorch 纯算法实现前馈神经网络训练(数据集随机生成)
下面这个代码大家可以学习学习,这个代码难度最大的在于反向传播推导, 博主推了很久,整个过程都是纯算法去实现的,除了几个激活函数,可以学习一下下面的代码。我下面这个代码还是很严谨的,从数据集生成,损失函数,网络结构、梯度求导,优化器等等组件都实现了。原创 2023-07-09 10:06:48 · 854 阅读 · 1 评论 -
支持向量机推导之r||w||=1的限制转化
有了这个距离公式,再结合我们的常识,我们知道,当我们每次有了一个超平面,是不是可以求得每个样本到超平面的距离,那么研究者根据先验经验认为,每一个超平面求得之后呢,都会存在一个样本到超平面的最小距离,研究者们发现,如果这个最小距离越大,超平面的分类效果越好,于是得到了我们的SVM模型,即求解一个超平面,可以将样本都正确分类,且样本到超平面的最小距离最大。我们可以发现,有很多超平面,或者说线,都可以把我们的样本都正确的分隔开来,但如果从直观的效果靠,是不是红色的那一条是效果最好的,那么这一条怎么找到呢?原创 2023-07-07 22:09:55 · 832 阅读 · 0 评论 -
揭秘logistic 回归 与 sigmoid激活函数的关系
人们发现,线性模型可以表示一个样本空间中的一个超平面,这个线性空间可以将样本空间一分为二,研究者就说,我们可以求一个最好的超平面,正好把我们的训练集给分好类,这不就好了嘛,那这个线性模型表示的超平面不就对进行分类了吗?应该是更合适的,这是因为,上述使用距离之和作为损失结果,但是显然有些样本如果比较离群,那么他计算得到的距离就会很大,对于损失函数的影响很大,人们想到了什么呢?(wx+b)/||w||是样本到超平面的距离,那就是正样本让他们到超平面一边,负样本到超平面一边,然后距离超平面越远越好。原创 2023-07-03 22:17:11 · 336 阅读 · 0 评论 -
NLP学习笔记十二-词袋模型
词袋模型其实是一种很简单的统计模型,这个统计模型说法是博主自己定义的,也可能真的统计模型中含有词袋模型这一类,为什么说它是统计模型?因为词袋模型他呢是基于统计的,比如现在我们有两组组词,现在我们希望对这组词建立词袋模型。然后这里要提到的是,词袋模型本质上就是统计一个词组单词的出现次数,在进行向量转化,词袋模型是比较简单的,它并不会考虑这些单词之间的内在联系,同时转化的过程中,原来单词之间的顺序也不会被考虑。比如我们现在有两组组词语。原创 2023-07-02 07:45:07 · 769 阅读 · 0 评论 -
机器学习-方差和偏差理论
(1)很显然,方差越大,说明在不同数据集上的参数差异大,即模型差异大,也就是模型对于数据集过于敏感,也就是过拟合的可能性越大,所以,方差越大模型越可能过拟合。对于方差和偏差的实验应该也是挺有趣的,但是时间有限,博主就不做了,不过我知道怎么做这个实验,感兴趣的同学可以咨询我啊。关于机器学习方差和偏差的内容其实很重要,这个方差和偏差可以帮助我们去分析,模型的泛化能力和过拟合的程度。偏差就是不同数据集训练出的模型,在对其计算平均模型,平均模型与最优模型的平方差就是偏差。表示假设中的最优模型。原创 2023-07-02 07:22:03 · 696 阅读 · 0 评论 -
机器学习优化器和SGD和SGDM实验对比(编程实现SGD和SGDM)
博主最近在学习优化器,于是呢,就做了一个SGD和SGDM的实验对比,可谓是不做不知道,一做吓一跳,这两个算法最终对结果的影响还是挺大的,在实验中SGDM明星要比SGD效果好太多了,SGD很容易陷入局部最优,而且非常容易发生梯度爆炸的情况,而SGDM做的实验当中还未出现这些情况。下面是一张跑出的实验图,事实上,我做了很多很多的实验,这是一件十分有趣的事情,在实验中,你可以看到这些优化器的特点,这很有趣,当然前提是这个优化器是你自己完全编程写的。(4)超参数的设置对于这两个模型的影响都是很大的,要小心处理。原创 2023-06-30 21:22:58 · 1230 阅读 · 0 评论 -
多元回归梯度下降算法实现(SGD优化)(数据集随机生成)
其实博主做了很多实验,实验效果好不好,跟数据集的质量,跟学习率的选择,SGD 优化器batch的选择都很重要。原创 2023-06-25 00:47:23 · 400 阅读 · 0 评论 -
window11 + python3.7+NVDIA11.7 +pytorch GPU 加速环境配置
2.安装对应NVDIA版本的cuda和(cudnn也可以装也可以不装,我看网上基本都没装,这个是深度学习优化加速的,其实cuda可以把我们的计算在GPU上运行,然后cudnn又可以优化他的计算,不过cudnn只是在深度学习方面上有优化,并不能质的改变速度,所以这个可以不用安装,比如现在三个消失运行完,安装之后两个小时运行完,其实这都是线性的减少时间,没有太大影响。对于博主呢,其实不太像配置GPU的,因为其实笔记本即使用GPU速度也是很慢的,对于大型任务也是远远不够的,也就是做一些小任务可以很快的加速速度。原创 2023-06-20 06:08:35 · 1288 阅读 · 0 评论 -
矩阵求导和向量求导思想
我们先把问题转化为值对向量求导,就是先用f(x)中的每个值先对x求导,每一个求导结果作为一个向量的组成项,之后值对向量求导,每一项有转化成一个向量,所以,向量对向量求导得到的是一个矩阵。标量对矩阵求导思想还是逐项求导,但是得到的还是一个矩阵,就是反过来啊,标量每次分别对矩阵中的每个值进行一次求导,求导结果最后会组成一个矩阵,也就是梯度矩阵。此时f(x)对x求导得到的就是一个向量,求导方法,还是逐项求导,就是f(x)对x中每一项的值进行求导,求导后的值组成一个向量。向量对向量求导,这个是什么意思呢。原创 2023-06-15 22:01:00 · 991 阅读 · 0 评论 -
Voronoi泰森多边形应用案例-python
下面代码为Voronoi泰森多边形的应用案例。在下面代码中,我们会对输入的数据集,计算泰森多边形,之后在这个基础上,再对泰森多边形进行分割,之后我们可以通过书输入点,然后直接计算出其在我们分割的那个框里,再次基础上,结合泰森多边形的边界线知识,就可以很快的判断输入点的坐标距离输入数据集那个点最近。原创 2023-05-15 15:12:08 · 920 阅读 · 1 评论 -
完整正确的fpgrowth代码-python
晚上关于fpgrowth代码基本上都是错的,跑出来的结果不唯一,这里我给一份正确的fpgrowth代码。l=[[a,b,c],[,d,c,e,g],[a,e,c,e]]这样就可以了。注意处理后的数据集的形式是一个二级列表,如(parsedDat)原创 2023-05-11 10:22:42 · 562 阅读 · 2 评论 -
数据分析示例-python
,今天呢,博主把之前做过的一个小课题拿出来展示一下,当然这个课题呢做的工作量很大,也用到了很多可以参考的技术和代码,做数据分析工作的可以尝试学习学习。原创 2023-05-08 14:30:35 · 986 阅读 · 0 评论 -
求输入n个点求这个n个点构造的三角网,之后随机输入一个点,求解点落在那个三角形中-python实现
该算法实现了通过输入n个点,构造一个三角网,然后,输入一个点,可以判断落在三角网的那个区域,对代码感兴趣的,可以找我。求输入n个点求这个n个点构造的三角网,之后随机输入一个点,求解点落在那个三角形中。最后三个点事输出的三角形坐标。原创 2023-02-15 12:49:55 · 165 阅读 · 0 评论 -
最小均方算法(lsm)-python代码实现
最小均方算法,简称LMS算法,是一种最陡下降算法的改进算法,是在维纳滤波理论上运用速下降法后的优化延伸,最早是由Widrow和Hoff提出来的。其具有计算复杂程度低、在信号为平稳信号的环境中收敛性好、其期望值无偏地收敛到维纳解和利用有限精度实现算法时的平稳性等特性,使LMS算法成为自适应算法中稳定性最好、应用最广的算法。(4)判断是否满足条件,若满足算法结束,若否n增加1,转入第(3)步继续执行。(2)初始化,赋给w(0)各一个较小的随机非零值,令n=0。X(n)为输入向量,或称为训练样本。...原创 2022-07-30 18:03:52 · 1952 阅读 · 0 评论 -
letnet图片分类 python实现-详细讲解
letnet图片分类 python实现-详细讲解最近发现很多人对这个图片分类的这个代码还是很感兴趣的,所以,今天,我们再将一个letne对图片进行分类的代码数据集,我已上传到我的资源中,想要的,也可以直接找我首先给出我们的文件夹结构:下面两个是存放日志给模型的两个文件夹,下面这个是:数据集文件夹结构,每个文件夹下存储的是我们的训练数据集每个文件夹里都是图片letnet代码有些特殊,训练集的文件夹得名字需要是数字模型训练代码如下,有备注import osimport tensorf原创 2022-05-21 20:03:44 · 845 阅读 · 0 评论 -
python-arima模型statsmodels库实现-有数据集
python-arima模型statsmodels库实现-有数据集最近,帮同学做一些任务,碰到了需要用到arima模型,我就把自己的实现代码给大家学习一下,当然也有数据集,可以帮助大家测试代码,有问题的话,可以咨询我数据集,我直接上传到,我的资源中了,名为arima模型学习数据集下面arima模型实现代码,有参数选择,也有绘图,也有模型预测,还有数据差分和平稳性检验import numpy as npimport pandas as pdimport osfrom numpy import原创 2022-04-24 13:50:43 · 2627 阅读 · 4 评论 -
拉格朗日插值代码python实现(不掉包)
拉格朗日插值代码python实现(不掉包)今天我们来讲一下,使用拉格朗日插值公式进行插值,通过python实现那么拉格朗日插值公式是什么样的呢?百度百科定义如下:当然如果你没有看懂的话,可以再去查询一些相关资料那么它的python代码实现如下:import numpy as npimport osx=[0,2,4,5,6,7]y=[2,7,10.5,12.8,14.6,18.6]def inter(x,e): result=0 for i in range(len原创 2021-06-07 13:23:06 · 3207 阅读 · 0 评论 -
svm图像分类python代码实现续
svm图像分类python代码实现续这篇博客诗接上前面一篇svm图像分类得一篇续集svm分类代码如下 #os.system("pause")#Svm 训练:import sysimport osimport cv2import numpy as npfrom sklearn.svm import SVCfrom sklearn.model_selection import train_test_splitimport timeimport pickle#help(SVC)S原创 2021-05-31 17:56:58 · 8243 阅读 · 37 评论 -
因子分析法
因子分析法今天博主想介绍一个很经典的降维方法因子分析法,很多人可能降维第一想到的是主成分分析法,确实主成分分析法是很经典的,因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。简原创 2021-04-02 23:38:22 · 13454 阅读 · 0 评论 -
一篇博客带你掌握pytorch基础,学以致用(包括张量创建,索引,切片,计算,Variable对象的创建,和梯度求解,再到激活函数的使用,神经网络的搭建、训练、优化、测试)
一篇博客带你掌握pytorch基础,学以致用1.将numpy的 ndarray对象转换为pytorch的张量在 Pytroch 中,Tensor 是一种包含单一数据类型元素的多维矩阵,译作张量。熟悉 numpy 的同学对这个定义应该感到很熟悉,就像ndarray一样,一维Tensor叫Vector,二维Tensor叫Matrix,三维及以上称为Tensor。而 numpy 和 Tensor 确实有很多的相似之处,两者也可以互转。实例如下:import torchimport numpy as np原创 2021-03-28 19:23:57 · 1393 阅读 · 4 评论 -
最小二乘支持向量机分类器
支持向量机最初是基于这样的设想:将数据映射到高维空间,并在该空间中构造一个最优的分割超平面,即最大化“安全”间隔。为了使数据点安全地正确地落在超平面的两侧,有如下不等式:再通过添加违反约束 ξi 修正为:最大化间隔就是最小化 ||w||。对偶凸二次规划(QP)可以得到最优值,就像 MLP 和其他技术一样,不会收敛到一个局部极小值。当研究者都追随着 SVM/凸二次规划的热潮时,有两个问题却未引起关注。第一个问题是如何选择适当的核。具有良好泛化能力的线性可分器需要恰当地度量训练样本及测试样本的原创 2021-03-27 23:37:53 · 1097 阅读 · 1 评论 -
加性logistic回归
加性logistic回归之前,我在博客中提到了提升法,它按次序在重新加权的训练实例上应用分类算法,然后采纳这些模型输出的加权多数票。作为优化的强大方法,提升法事实上还可以理解为一种加性回归的方法,按逐步递加的方式来拟合一个加性模型∑mhm(x)\sum_{m}h_{m}(x)∑mhm(x)。当我们去得到我们的最终模型时,先从h1(x)=β1b(x;α1)h_{1}(x)=\beta_{1}b(x;\alpha_{1})h1(x)=β1b(x;α1),即先得到当前模型的最优参数β1,α1\b原创 2021-02-15 21:10:19 · 824 阅读 · 0 评论 -
机器学习-堆叠泛化
机器学习-堆叠泛化机器学习中,有时,我们需要将多个模型组合起来使用,这样很多时候可以达到更好的拟合效果,就像好的咖啡,融合起来喝才更美味,有些时候,我们仅仅通过一个模型,泛化能力远远达不到我们的要求,这时,可以使用多个模型,将它们的输出进行线性组合,得到最后的结果。一般有两种简单的方式组合各种模型的输出:通过投票和通过平均,投票就像做分类任务一样,当有多个模型输出时,将得到票数最多的那一类作为样本最终的分类结果。而通过平均,则常使用在概率模型或回归模型,将多个模型输出的概率或回归结果取平均作为我们最后的原创 2021-01-29 18:54:17 · 1125 阅读 · 0 评论 -
回归分析-线性相关强度
回归分析-线性相关强度什么是回归分析呢?回归分析:通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具这里,给出回归分析的结构图:可以看出回归分析的内容实际上非常多。今天我们进行一个回归分析的大致流程的讲解首先对于因变量和自变量,我们有两个定义函数关系:确定性关系,此时因变量和自变量之间呈现线性关心诸如y=x∗3+4y=x*3+4y=x∗3+4,像这样,x和y是线性关系相关关系:不确定关系,此时,因变量和自变量不呈现线性关系往往当现实中真正的去做一些回复分原创 2021-01-10 21:51:05 · 5269 阅读 · 0 评论 -
可变神经网络 Python代码
可变神经网络 Python代码这回写一个关于神经网络的代码,博主对于深度学习也是学了很久,学理论的时候,感觉可能神经网络也是中规中矩的的,但是真的自己去写了一个神经网络,并针对一个案例进行测试时,才发现神经网络并没想的那么简单。这里博主有两个自己最大的体会,给那些没有亲自调过网络的人学习率非常重要,决定能否收敛参数初始化很重要,决定是否能找到最优解话不说我写了一个可变神经网络,读者可以,我在代码中写了注释,如果想要调节网络结构,非常简单,只要改一个列表即可我对一些核心代码写上了注释,如有疑问原创 2020-12-26 22:12:00 · 1608 阅读 · 10 评论 -
梯度下降法代码python实现
梯度下降法代码python实现 -有数据有图有真相今天我们做了一个实验,通过生成多元回归数据进行梯度下降求解权重生成一份线性数据 y=w1∗x1=w2∗x2+w3∗x3+by=w_1*x_1=w_2*x_2+w_3*x_3+by=w1∗x1=w2∗x2+w3∗x3+b代码测试为 y=5∗x1=w2∗7+4∗x3+8y=5*x_1=w_2*7+4*x_3+8y=5∗x1=w2∗7+4∗x3+8为线性数据增加噪声值 y=y+np.random.randn()*1+8之后通原创 2020-12-24 21:54:29 · 3553 阅读 · 3 评论 -
局部加权回归-新的回归思路,为每个样本订制个性化的模型
局部加权回归本篇中考虑的方法类似于最近邻值的输出的线性组合。但我们没有那么残酷,不会只关注 K 个最近邻值而消除所有其他值的影响。这是一种平滑的变化:我们根据和被预测的实例之间的距离来逐渐减少实例对预测的影响,而不是选择一组 K 个胜者。通过加权得到的整体相关性可能会相当复杂。当模型需要在不同的点进行评估时,线性回归仍然可以使用,只不过该评价点附近的评估点被认为比远处的“更重要”。这里遇到了一个非常普遍的原则:在(自然的或自动的)学习中,相似的实例通常被认为比那些相差甚远的更相关。局部加权回归(Lo原创 2020-11-23 18:53:15 · 492 阅读 · 1 评论