文章目录
三支决策
主要思想: 将一个论域 划分为三个不相交的区域,并使用不同的策略进行处理。
f : U ⟶ { P O S , B N D , N E G } f:U\longrightarrow\{POS,BND,NEG\} f:U⟶{POS,BND,NEG}
f: 可以看做一个函数或映射,一个对象通过 f 映射到
{
P
O
S
,
B
N
D
,
N
E
G
}
\{POS,BND,NEG\}
{POS,BND,NEG}三个区域。
U: 论域
D: 条件集合
自决策粗糙集脱胎而来。
1. 三支决策发展
- 成本敏感连续三支决策(DTRS引入)
- 顺序三支决策和多级增量统一模型
- 阈值确定(GTRS引入)
- 智能三支群排序
- 模糊事件三支决策模型
- 基于公差粗糙集的三支决策模型
- 三支属性约简
- 重叠、增量聚类
2. 对象和簇关系
- 对象属于簇
- 对象可能属于也可能不属于簇
- 对象不属于簇
2.1 怎么确定关系
现有的确定归属关系方法:
模糊聚类(模糊C-均值算法)、粗聚类(粗糙集+K-means)、区间聚类等等。
以上方法是基于对象可以属于多个聚类,一种软聚类方法。
软聚类:通过约束来放宽聚类的边界,从而解决重叠聚类、离群点和不确定对象的问题。(就是说一个对象可以属于多个聚类)
- 由于模糊集不能精确表示聚类。
- 引入粗聚类,将上下近似的概念引入,将粗糙集和K-means方法结合,不足以描述聚类。
- 基于决策理论的区间聚类。
- 姚一豫教授将贝叶斯风险引入粗糙集,提出了决策理论粗糙集模型,并提出三支决策。
- 于洪教授提出三支聚类分析框架。
3. 三支聚类分析
两个基本问题:
- 如何表示聚类
- 如果获得聚类,即:如何开发聚类
3.1 符号含义
U
=
{
x
1
,
x
2
,
.
.
.
,
x
n
,
.
.
.
,
x
N
}
,
n
∈
{
1
,
2
,
.
.
.
,
N
}
U=\{x_1,x_2,...,x_n,...,x_N\},n\in \{1,2,...,N\}
U={x1,x2,...,xn,...,xN},n∈{1,2,...,N}
x
n
=
{
x
n
1
,
x
n
2
,
.
.
.
,
x
n
d
,
.
.
.
,
x
n
D
}
,
d
∈
{
1
,
2
,
.
.
.
,
D
}
x_n=\{x_n^1,x_n^2,...,x_n^d,...,x_n^D\},d\in \{1,2,...,D\}
xn={xn1,xn2,...,xnd,...,xnD},d∈{1,2,...,D}
C
=
{
C
1
,
C
2
,
.
.
.
,
C
k
,
.
.
.
,
C
K
}
,
k
∈
{
1
,
2
,
.
.
.
,
K
}
C=\{C^1,C^2,...,C^k,...,C^K\},k\in \{1,2,...,K\}
C={C1,C2,...,Ck,...,CK},k∈{1,2,...,K}
C
k
=
{
x
1
k
,
.
.
.
,
x
i
k
,
.
.
.
,
x
∣
C
k
∣
k
}
,
k
∈
{
1
,
2
,
.
.
.
,
K
}
C^k=\{x_1^k,...,x_i^k,...,x_{|C^k|}^k\},k\in \{1,2,...,K\}
Ck={x1k,...,xik,...,x∣Ck∣k},k∈{1,2,...,K}
U
U
U:论域
x
n
x_n
xn:U中第n个对象
x
n
d
x_n^d
xnd:第 n 个对象的第 d 个属性值
C
k
C^k
Ck:第 k 个聚类,聚类使用对象集合表示
硬聚类:一个对象只属于一个聚类
软聚类:一个对象可属于多个聚类
一个区域来表示聚类,不能显示出哪些对象可能属于聚类;而使用三个区域来表示一个聚类,可以体现出哪些 对象绝对属于聚类、绝对不属于聚类和可能或不可能属于聚类。
3.2 三支聚类表示
所以我们使用 一对集合 来表示聚类:
C
=
(
C
o
(
C
)
,
F
r
(
C
)
)
C=(Co(C),Fr(C))
C=(Co(C),Fr(C))
C
o
(
C
)
⊆
U
Co(C) \subseteq U
Co(C)⊆U 和
F
r
(
C
)
⊆
U
Fr(C) \subseteq U
Fr(C)⊆U
T
r
(
C
)
=
U
−
F
r
(
C
)
−
C
o
(
C
)
Tr(C) = U - Fr(C) - Co(C)
Tr(C)=U−Fr(C)−Co(C)
C
o
(
C
)
、
F
r
(
C
)
、
T
r
(
C
)
Co(C)、 Fr(C) 、Tr(C)
Co(C)、Fr(C)、Tr(C) :分别代表核心区域(Core Region),边缘区域(Fringe Region)和 外部区域(Trivial Region)
x
为一个对象:
x
∈
C
o
(
C
)
、
x
∈
F
r
(
C
)
、
x
∈
T
r
(
C
)
x\in Co(C)、x\in Fr(C) 、x\in Tr(C)
x∈Co(C)、x∈Fr(C)、x∈Tr(C) :分别代表 x
一定属于C,x
可能属于C、x
不属于C
3.3 三支聚类区域关系
U
=
C
o
(
C
)
∪
F
r
(
C
)
∪
T
r
(
C
)
U = Co(C) \cup Fr(C) \cup Tr(C)
U=Co(C)∪Fr(C)∪Tr(C)
C
o
(
C
)
∩
F
r
(
C
)
=
∅
Co(C) \cap Fr(C) = \empty
Co(C)∩Fr(C)=∅
F
r
(
C
)
∩
T
r
(
C
)
=
∅
Fr(C) \cap Tr(C) = \empty
Fr(C)∩Tr(C)=∅
T
r
(
C
)
∩
C
o
(
C
)
=
∅
Tr(C) \cap Co(C) = \empty
Tr(C)∩Co(C)=∅
- 代表着三个区域是互斥的、无交集的。
3.4 三支聚类定义方案
f
o
r
∀
k
,
C
o
(
C
k
)
!
=
∅
for \forall k ,Co(C^k) != \empty
for∀k,Co(Ck)!=∅
⋃
k
=
1
K
(
C
o
(
C
k
)
∪
F
r
(
C
k
)
)
=
U
,
1
<
k
<
K
\bigcup_{k=1}^K (Co(C^k) \cup Fr(C^k)) = U, 1 <k<K
k=1⋃K(Co(Ck)∪Fr(Ck))=U,1<k<K
- 每个聚类的核心区域不为空
- 所有聚类的核心区域+边缘区域的并集等于论域U,代表任何对象必须属于一个聚类
3.5 聚类簇的表示
三支聚类簇:
C
=
{
(
C
o
(
C
1
)
,
F
r
(
C
1
)
)
,
(
C
o
(
C
2
)
,
F
r
(
C
2
)
)
,
.
.
.
,
(
C
o
(
C
k
)
,
F
r
(
C
k
)
)
,
.
.
.
,
(
C
o
(
C
K
)
,
F
r
(
C
K
)
)
}
C = \{(Co(C^1),Fr(C^1)),(Co(C^2),Fr(C^2)),...,(Co(C^k),Fr(C^k)),...,(Co(C^K),Fr(C^K))\}
C={(Co(C1),Fr(C1)),(Co(C2),Fr(C2)),...,(Co(Ck),Fr(Ck)),...,(Co(CK),Fr(CK))}
双支聚类簇:
C
=
{
C
o
(
C
1
)
,
C
o
(
C
2
)
,
,
.
.
.
,
C
o
(
C
k
)
,
,
.
.
.
,
C
o
(
C
K
)
}
C = \{Co(C^1),Co(C^2),,...,Co(C^k),,...,Co(C^K)\}
C={Co(C1),Co(C2),,...,Co(Ck),,...,Co(CK)}
3.6 三支软聚类条件
(
1
)
:
C
o
(
C
k
)
∩
C
o
(
C
t
)
!
=
∅
,
o
r
(1) :Co(C^k) \cap Co(C^t) !=\empty,or
(1):Co(Ck)∩Co(Ct)!=∅,or
(
2
)
:
F
r
(
C
k
)
∩
F
r
(
C
t
)
!
=
∅
,
o
r
(2) :Fr(C^k) \cap Fr(C^t) !=\empty,or
(2):Fr(Ck)∩Fr(Ct)!=∅,or
(
3
)
:
C
o
(
C
k
)
∩
F
r
(
C
t
)
!
=
∅
,
o
r
(3) :Co(C^k) \cap Fr(C^t) !=\empty,or
(3):Co(Ck)∩Fr(Ct)!=∅,or
(
4
)
:
F
r
(
C
k
)
∩
C
o
(
C
t
)
!
=
∅
(4) :Fr(C^k) \cap Co(C^t) !=\empty
(4):Fr(Ck)∩Co(Ct)!=∅
k != t
满足以上条件的聚类簇,是软聚类簇,否则是硬聚类簇
4. 基于评价的三支聚类模型
使用评估函数和评估函数值的一对阈值生成三个区域。
假设有一对阈值
(
α
,
β
)
(\alpha,\beta)
(α,β) 和
α
≥
β
\alpha \ge \beta
α≥β 。只需要将评估值v(x)
与一对阈值进行比较,可以得到三个区域。
(
1
)
、
C
o
(
C
k
)
=
{
x
∈
U
∣
v
(
x
)
>
α
}
(1) 、Co(C^k)=\{x\in U | v(x) >\alpha\}
(1)、Co(Ck)={x∈U∣v(x)>α}
(
2
)
、
F
r
(
C
k
)
=
{
x
∈
U
∣
β
≤
v
(
x
)
≤
α
}
(2) 、Fr(C^k)=\{x\in U | \beta \le v(x) \le \alpha\}
(2)、Fr(Ck)={x∈U∣β≤v(x)≤α}
(
3
)
、
T
r
(
C
k
)
=
{
x
∈
U
∣
v
(
x
)
≤
β
}
(3) 、Tr(C^k)=\{x\in U | v(x) \le \beta\}
(3)、Tr(Ck)={x∈U∣v(x)≤β}
评价函数v(x)
:参考相似性测度、距离测度、概率、可能性函数、模糊隶属度、贝叶斯确认测度、子方法测度等。
阈值
α
、
β
\alpha、\beta
α、β:应该诱导一个优化给定目标函数的三部分。
5. 三支聚类的研究要点
- 三支聚类的表示
- 怎么获得三支聚类(聚类算法怎么写)
- 多种情况时候,开发新的聚类算法
5.1 三支聚类的表示
不同的三支决策解释可以为不同类型的聚类问题提供不同的解决方案。
- 一对集合表示
- 粗糙集
- 区间集
- 决策粗糙集
- 数学形态学
- 模糊集
- 阴影集
5.2 怎么获得三支聚类(聚类算法怎么写)
- 如何确定阈值
- 如何知道簇的真数(真数:真正聚类正确时候,聚类的错误)
5.3. 多种情况时候,开发新的聚类算法
- 基于树的增量重叠聚类的三支聚类
- 半监督聚类框架
- 。。。。