Kernel K-means1

最新推荐文章于 2024-07-06 20:40:17 发布

梅小白的进阶之路

最新推荐文章于 2024-07-06 20:40:17 发布

阅读量2.0k

点赞数 2

分类专栏：聚类论文笔记文章标签：算法 kmeans算法核函数

本文链接：https://blog.csdn.net/m0_45411005/article/details/122662102

版权

聚类论文笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

论文题目：A Large Scale Clustering Scheme for Kernel K- Means

一、核函数

核函数可以看作一种映射变化，把低维数据映射到高维数据，利用新空间的性质，使数据可分离。

给定数据集 $x_1,x_2,\cdots,x_N$ ,其中 $x_i\in R^D,$ 映射函数 $\phi$ 将 $R^D$ 空间中的 $x_i$ 映射到新空间 $Q$ 。核函数定义为：
$H(x_i,x_j)=\phi(x_i)\cdot\phi(x_j)$ 并不需要知道 $\phi$ 的具体形式。

常见的核函数有：
$Polynomial\qquad H(x_i,x_j)=(x_i\cdot x_j+1)^d$
$\qquad \quad \ \ \ \ H(x_i,x_j)=exp(-r\|x_i-x_j\|^2)$
$\qquad \quad \ \ H(x_i,x_j)=tanh(ax_i\cdot x_j+b)$

核函数的缺点：
（1）由于 $\phi$ 的具体形式是未知的，所以新空间的一些性质损失了，比如维度和取值范围；
（2）被给数据集的核函数形式必须通过实验才能确定；
（3）计算成本和存储空间大幅度提高。

二、k-means

若k-means采取欧式距离的度量措施，即样本点到簇中心点欧式距离的平方和最小，那么这有一个假设前提：数据由孤立的椭圆区域组成。如果待处理的数据集不满足这个假设，那么需要采用其他的度量措施。
在这里插入图片描述

三、核k-means

k-meeans引入核函数后：
在这里插入图片描述

这里要注意的是： $u_i$ 的值未知的
Kernel K-means算法如下：
在这里插入图片描述

四、核k-means的优缺点以及与k-means的不同

1.优点

引入核函数，使得原本用k-means不可分割的数据变得可以分割。

2.缺点

核矩阵的计算和存储成本较高。当语料库
在这里插入图片描述
当语料库较大时，kernel k-means如何改进？正是本篇论文所讲的。

五、待解疑惑与下一步任务

1.如何通过数据集确定核函数的形式
2.核函数中映射函数是一一对应的吧， $x_i\in C_k\iff \phi(x_i)\in C_k$ ,如果不一一对应，那么不能知道 $\delta(u_i,C_k)$ 的值。
3.找数据集亲自模拟k-means 和kernel k-means。

梅小白的进阶之路

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Kernel K-means1

论文题目：A Large Scale Clustering Scheme for Kernel K- Means一、核函数核函数可以看作一种映射变化，把低维数据映射到高维数据，利用新空间的性质，使数据可分离。给定数据集x1,x2,⋯ ,xNx_1,x_2,\cdots,x_Nx1,x2,⋯,xN,其中xi∈RD,x_i\in R^D,xi∈RD,映射函数ϕ\phiϕ将RDR^DRD空间中的xix_ixi映射到新空间QQQ。核函数定义为：H(xi,xj)=ϕ(xi)⋅ϕ(xj)H(x_i,x
复制链接

扫一扫

专栏目录