最近在学习西瓜书聚类这一张,整理了一些聚类的基础知识,记录下来,方便查阅。
聚类和分类的区别:分类就是向事物分配标签,聚类就是将相似的事物放在一起。
分类:贝叶斯、决策树、逻辑回归
聚类:k-means、FCM、高斯混合聚类
聚类目标:使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。
性能度量:1.外部指标 2.内部指标
距离:距离度量和非度量距离
性质:非负性、同一性、对称性、直递性
有序属性:闵可夫斯基距离、曼哈顿距离、欧氏距离、切比雪夫距离
联合概率分布: 定义:设(X,Y)是二维随机变量,对于任意实数x,y,二元函数:
F(x,y) = P{(X<=x) 交 (Y<=y)} => P(X<=x, Y<=y)
称为:二维随机变量(X,Y)的分布函数,或称为随机变量X和Y的联合分布函数。
随机变量X和Y的联合分布函数是设(X,Y)是二维随机变量,对于任意实数x,y,二元函数:F(x,y) = P{(X<=x) 交 (Y<=y)} => P(X<=x, Y<=y)称为二维随机变量(X,Y)的分布函数。
几何意义:如果将二维随机变量(X,Y)看成是平面上随机点的坐标,那么分布函数F(x,y)在(x,y)处的函数值就是随机点(X,Y)落在以点(x,y)为顶点而位于该点左下方的无穷矩形域内的概率。