KNN模型与度量学习

最新推荐文章于 2023-02-06 14:51:00 发布

飞锡2024

最新推荐文章于 2023-02-06 14:51:00 发布

阅读量306

点赞数

分类专栏：机器学习文章标签：学习机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38235865/article/details/119221251

版权

机器学习专栏收录该内容

29 篇文章 3 订阅

订阅专栏

k近邻KNN模型

懒惰学习著名代表,此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理

工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个训练样本，然后基于这个"邻居 “的信息来进行预测 ,在分类任务中可使用"投票法” 即选择这个样本中出现最多的类别标记作为预测结果;在回归任务中时使用"平均法" ，即将个样本的实值输出标记平均值作为预测结果;还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大.

示意图：
在这里插入图片描述

低维嵌入

分类、聚类都需要计算距离，所以高维情形下出现样本稀疏、距离计算困难等问
是所有机器学习方法共同面的严重障碍，被称为“维数灾难”

缓解维数灾难的一个重要途径是降维(dimension red uction) 亦称" 维数约简” ，即通过某种数学变换将原始高维属性空间转变为一个低维"子空间"(subspace) ，在这子空间中样本密密度大幅提高，距离计算变得更为容易。

为什么能进行降维?这在很多时候，人们观测或收集到的数据样本虽是高维的，但与学习任务密切相关的也许仅是某个低维分布，即高维空间中一个低维"嵌入"
在这里插入图片描述

算法过程
在这里插入图片描述

基于线性变换来进行降维的方法称为线性降维方法，它们都符合(10.13) 的基本形式，不同之处是对低维子空间的性质有不同的要求，相当于对施加了不同的约束.若要求低维子空间对样本具有最大可分性，则将得到一种极为常用的线性降维方法.

对降维效果的评估，通常是比较降维前后学习器的性能，若性能有所提高，则认为降维起到了作用.若将维数降至二维或三维，则可通过可视化技术来直观地判断降维效果.

主成分分析PAC

对于正交属性空间中的样本点，如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达?

容易想到，若存在这样的超平面，那么它大概应具有这样的性质:
·最近重构性:样本点到这个超平面的距离都足够近;
·最大可分性.样本点在这个超平面上的投影能尽可能分开.

基于最近重构性和最大可分性能分别得到主成分分析的两种等价推导我们先从最近重构性来推导.

在这里插入图片描述

在这里插入图片描述

核化线性降维

线性阵维方法假设从维空间到低维空间的函数映射是线性的，然|旬，在
不少现实任务中，可能需要非线性映射才能找到恰当的低维嵌入

例如：在这里插入图片描述

在这里插入图片描述
非线性阵维的一种常用方法，是基于核技巧对线性降维方法进行"核化" (kernelized PCA). 下面以核主成分分析为例演示

在这里插入图片描述

流式学习

度量学习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
KNN模型与度量学习

k近邻KNN模型懒惰学习著名代表,此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个训练样本，然后基于这个"邻居 “的信息来进行预测 ,在分类任务中可使用"投票法” 即选择这个样本中出现最多的类别标记作为预测结果;在回归任务中时使用"平均法" ，即将个样本的实值输出标记平均值作为预测结果;还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大.示意图：低维嵌入分类、聚类都需要计
复制链接

扫一扫

专栏目录

飞锡2024 CSDN认证博客专家 CSDN认证企业博客

码龄7年

239: 原创

6万+: 周排名

9105: 总排名

30万+: 访问

: 等级

3417: 积分

420: 粉丝

519: 获赞

105: 评论

1397: 收藏

私信

关注

热门文章

分类专栏

NLP算法 11篇
paddle 16篇
计算机视觉 21篇
机器学习 29篇
pdf 5篇
DeepLearning基础 12篇
爬虫 14篇
docker 1篇
大数据 30篇
java 12篇
联邦学习 3篇

最新评论

paddle ocr模型量化实践
qq_30400291: 看到他写这个还激动了下，原来写的是待解决，老兄你解决了吗？
opencv+paddle orc 识别图片提取表格信息
Kroke: 请问最后的f y[1][0]是什么意思啊
opencv+paddle orc 识别图片提取表格信息
Kroke: 您好，请问能更详细的说说这里的代码吗
Table Transformer做表格检测和识别实践
Selvaggia: 我也遇到了这个问题，请问您解决了吗？可以分享一下经验吗^_^非常感谢！
paddle ocr模型量化实践
yuazxsdcvf: 报错：ValueError: The size of input is too big. Please consider saving it to file and ‘load_op’ to load it.这个解决了么

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。