基于密度的聚类

 

基于密度的聚类


定义:


1.      对于空间中的一个对象,如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts,则该对象被称为核心对象,否则称为边界对象。

2.      如果p是一个核心对象,q属于p的邻域,那么称p直接密度可达q。

3.      如果存在一条链<p1,p2,…..,pi>,满足p1=p,pi=q,pi直接密度可达pi+1,则称p密度可达q。

4.      如果存在o,o密度可达q和p,则称p和q是密度连通

5.      由一个核心对象和其密度可达的所有对象构成一个聚类。

a为核心对象,b为边界对象,且a直接密度可达b,

但b直接密度可达a,因为b不是一个核心对象

c直接密度可达a,a直接密度可达b,所以c密度可达b,

同理b密度可达c,但b和c密度连通

 

DBSCAN从任一对象p开始,根据参数e和MinPts提取所有从p密度可达对象,得到一个聚类。

1.      从任一对象p开始。

a)        如果p是核心对象,则p和p直接密度可达的所有对象被标记为类i。递归p直接密度可达的所有对象qi(即用qi代替p回到第一步)。

b)        如果p是一个边界对象,那么p被标记为噪声。

2.      i++

3.      如果还有没被标记的对象,则从中任选一个作为p,回到第一步。

       

得到一个类,同样我们可以得到另一个类

优点:

1.      对噪声不敏感。

2.      能发现任意形状的聚类。

缺点:

1.      聚类的结果与参数有很大的关系。

2.      DBSCAN用固定参数识别聚类,但当聚类的稀疏程度不同时,相同的判定标准可能会破坏聚类的自然结构,即较稀的聚类会被划分为多个类或密度较大且离得较近的类会被合并成一个聚类

 

附:

专题思路:把搜下来的网页进行聚类,将聚类结果显示给用户,用户可以选择其中的一个类,标为关注,类的关键词作为主题,用户就可以跟踪这主题、了解主题的文章的情感(就是其它部分的功能)

 

 csdnID:tmgzb

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值