概念聚类(Clustering mit kategorischen Attributen)
我们至今为止看到的聚类的方法都只适用于对应的属性值是数字的情况,但是当属性不是数字时,我们又该怎么做呢???比如购物车分析时,对应的属性值的类型就是布尔型的,他对应的值域是{true, false}。而一般的情况下属性对应的值域是一个有限值的集合。
比较经典聚类和概念聚类
在经典聚类中:
1.相识性取决于数值的相似性函数
(Definition der Ähnlichkeit auf der Basis einer meist numerischen Ähnlichkeitsfunktion)
2.这种相似性的标准是环境无关的(上下文无关的),也就是说环境对此无丝毫的影响
(Ähnlichkeitsmaß ist kontextfrei, d.h. Umgebung spielt keine Rolle)
3.没有使用概念上的关联//这个不知是指啥
(keine Ausnutzung konzeptureller Zusammenhänge)
4.没有使用结构属性//还是不懂???
(Keine Verwendung von Gestalteigenschaften)
5.相似性与生成的简单的文本描述无关 //???
(Ähnlichkeit hängt nicht von der Einfachheit der resultierenden Beschreibungen ab)
/*
Ziel:
wie können Beispiele in Klassen bezüglich ihrer Ähnlickkeit geordnet werden??
keine Klasseninformationen gegeben
Beipielhafte AlgorithmenÖ
COBWEB:
Lernen von Begriffen für Attribute mit symboischen Wertebereichen
CLASSIT:
Lernen von Begriffen für Attribute mit numerischen Wertebereichen
*/
Clustering mit kategorischen Attributen将遇到的问题
- 一般这种情况下项目的数量(Anzahl der Items)或者说属性的数量将非常大。就像前面提到的购物车的例子,想想amazon上能有多少种商品就知道了。这也就意味着我们要面对的将是一个高维聚类
- 具有相同购物行为的顾客(也就是位于相同簇的对象)购买的东西一般不同//理解不能(Kunden mit ähnlichem Kaufverhalten haben wenig Items gemeinsam)
- Verknüpfung zwischen diesen Transaktionen ergibt sich durch andere Transaktionen//理解不能???
- 每个簇对应的项目的集合(也就是指分配的维度)的大小不尽相同。很难选择一个确定的阀值。比如尿布就有很多不同的种类不是吗???//这一项不是很了解,这里的阀值究竟是指什么???(Mengen der Items, die Cluster bestimmen, haben unterschiedliche Größen.Wahl der Schwellenwerte ist also schwierig.z.B. Kaviar A,…,Kaviar Z,Lachs 1000,…, Lachs 1199),在购物单集合中,大部分情况是两张购物单之间,只有几项是相同的。这也使得越大的簇,他购物单之间的平均距离就越大。最好得方法就是每个簇都有不同的阀值。//还是不理解,高维聚类中簇是针对特定的维度的,那又何必在意原本购物单中的大小呢。而且只要特定维度上分布紧密,相应的距离也不会增大啊???(Große Menge: Viele Paare von Transaktionen haben wenige Items gemeinsam.Abstände der Transaktionen vom Durchschnitt sind größer in großem Cluster. Wann gehört Transaktion zum Cluster?Idealerweise müssten Schwellenwerte von Cluster zu Cluster unterschiedlich sein.)
一个弱化的传统的方法(Schwächen traditioneller Definitionen)
用1和0代表布尔值的真和假,然后现在是数字了,就自己看着办吧。
//然后就是把Agglomerative算法和Jaccard系数对一个例子进行分析。然后得出的结论是。。。我还是找个时间再好好看看吧S13-18
Jaccard Koeffizient是用来量化两个购物单T1和T2之间相似度的系数,他表示为:
他的值域是[0,1]
Links
在这里我们把购物单(也就是数据对象)看成是单个的点
我们规定当两个点的相识度大于阀值的时候,他们就是邻居
另外我们规定两个点之间的links的数量等同于他们相同邻居的数量
那么我们的Links算法就是
不断的合并具有最大得Links数的点(或者说,簇)
//怎么证明,当阀值取0.5,并且使用Jaccard系数和agglomerative聚类的时候,取得的结果是正确的??
我们也可以对上面的算法进行一些改变:
1.比如我们可以尝试其他相似度的测量方法??
2.或者我们不用agglomerativ算法,我们使用k means。那么对应的数据对象就是购物单(Transaktionen),对应的Medoid也是购物单,那么距离就有links来决定,想想也是挺好的???
结论:
Clustering ist schwierig, wenn Dimensionen kategorisch sind.
Notwendigkeit, Nachbarschaft zu berücksichtigen, wurde demonstriert
Lösung wurde vorgestellt - Algorithmus muss nicht geändert werden, ‘Abstand’ wird geändert.
COBWEB
基本知识
1.通过对结构树的扩展和调整进行学习
2.通过树体现多层次概念结构:
(Repräsentation der Begriffshierarchie als Baum)
树内的每一个分支都代表着把其子树分割成两个不同的类型。
(Jede Verzweigung innerhalb des Baumes steht für eine Einteilung der Unterbäume in verschiedene Kategorien)
叶子节点代表一个特定的概念(或类型)
(Blätter sind die speziellsten Begriffe(Kategorien))
3.允许使用名词变量值。
(Es werden nominale Attributwerte gestattet)
4.挑选合适的类型
测量类型的实用性(category utility)
当满足下面两个条件时,我们说一个聚类有比较好得实用性:
1)如果x属于聚类
cj
,那么我们可以很好的预测x的属性值v(有比较高的概率)(p(v|c))(predictability/Vorhersagbarkeit)
2)如果已知x的属性v,可以用比较高的概率推出x是属于
cj
类的(p(c|v))(predictiveness/Vorhersagekraft)
5.最大化同一类型不同实例间的相似性,与此同时最大化不同类型之间的区别。
6.我们找到了一种测量predictability和predictiveness的方法(Category Utility):