聚类
仰望星空的乌龟
准备开始更新自己的所学所得 种一棵树最好的时间是十年前,其次是现在。一切为时不晚。
展开
-
聚类算法(四)——基于密度峰值的聚类算法
4.基于密度峰值的聚类算法主要思想是寻找被低密度区与分离的高密度区域,基于的假设为:1)类簇中心点的密度大于周围邻居点的密度;2)类簇中心点与更高密度点之间的距离相对较大因此有两个需要计算的量:局部密度pi和高局部密度点距离(与高密度点之间的距离) δipi理解:其中dc表示截断距离,这个公式的意义就是找到与第i个数据点之间的距离小于截断距离的数据点的个数(某个点的距离到该点的距离小于dc 则密度加一),并将其作为第i个数据点真的密度。δi理解:在比对象i局部密度高的所有对象中,到对象i最转载 2020-10-31 21:23:15 · 5730 阅读 · 0 评论 -
聚类算法(三)——DBSCAN算法
**3.DBSCAN算法**基于密度空间的聚类算法 不需要聚类的数量 而是基于数据推测聚类的数目 可以对任意形状都能产生聚类概念:epsion-neighborhood(e-nbhd) 密度空间 在半径为e且还有若干个点的nbhd,密度等于包含点的个数/空间大小该算法首先要确定两个参数:epsilon 在一个点周围邻近区域的半径;minpts 这个邻近区域至少应该包含的点个数根据这两个参数可以划分样本中的点为三类:核心点 如果一个点在其eps半径内有超过minpts数目的点边界点 如果一原创 2020-10-31 21:15:15 · 2204 阅读 · 0 评论 -
聚类算法简介(一)——kmeans算法
聚类不同于分类分类是人已经知道如何分类 有了分类 机器对人类的操作学习之后自动分类 如:垃圾邮件;而聚类 算法根据数据的相似性自己去判断 事先没有分类聚类算法包括:1.K-means(无监督学习)特点:运算快、简单、好理解 但是只能应用于连续型数据 并且在分类前指定要选哪几类,非球形簇有局限算法理解:先指定要分几个组 在数据集中随机选几个数据点作为质心 计算其余点与质心的距离 哪个近跟哪个 然后再根据算法选出新的质心(这个点可以为数据中不存在的点) 如果新的质心与原来的距离小于某一阈值 则原创 2020-10-30 19:45:34 · 733 阅读 · 0 评论