机器学习-非监督学习(Unüberwachte Lernverfahren)+大型数据库:Clustering-2

概念聚类(Clustering mit kategorischen Attributen)

我们至今为止看到的聚类的方法都只适用于对应的属性值是数字的情况,但是当属性不是数字时,我们又该怎么做呢???比如购物车分析时,对应的属性值的类型就是布尔型的,他对应的值域是{true, false}。而一般的情况下属性对应的值域是一个有限值的集合。

比较经典聚类和概念聚类

在经典聚类中:
1.相识性取决于数值的相似性函数
(Definition der Ähnlichkeit auf der Basis einer meist numerischen Ähnlichkeitsfunktion)
2.这种相似性的标准是环境无关的(上下文无关的),也就是说环境对此无丝毫的影响
(Ähnlichkeitsmaß ist kontextfrei, d.h. Umgebung spielt keine Rolle)
3.没有使用概念上的关联//这个不知是指啥
(keine Ausnutzung konzeptureller Zusammenhänge)
4.没有使用结构属性//还是不懂???
(Keine Verwendung von Gestalteigenschaften)
5.相似性与生成的简单的文本描述无关 //???
(Ähnlichkeit hängt nicht von der Einfachheit der resultierenden Beschreibungen ab)
/*
Ziel:
wie können Beispiele in Klassen bezüglich ihrer Ähnlickkeit geordnet werden??
keine Klasseninformationen gegeben
Beipielhafte AlgorithmenÖ
COBWEB:
Lernen von Begriffen für Attribute mit symboischen Wertebereichen
CLASSIT:
Lernen von Begriffen für Attribute mit numerischen Wertebereichen
*/

Clustering mit kategorischen Attributen将遇到的问题

  1. 一般这种情况下项目的数量(Anzahl der Items)或者说属性的数量将非常大。就像前面提到的购物车的例子,想想amazon上能有多少种商品就知道了。这也就意味着我们要面对的将是一个高维聚类
  2. 具有相同购物行为的顾客(也就是位于相同簇的对象)购买的东西一般不同//理解不能(Kunden mit ähnlichem Kaufverhalten haben wenig Items gemeinsam)
  3. Verknüpfung zwischen diesen Transaktionen ergibt sich durch andere Transaktionen//理解不能???
  4. 每个簇对应的项目的集合(也就是指分配的维度)的大小不尽相同。很难选择一个确定的阀值。比如尿布就有很多不同的种类不是吗???//这一项不是很了解,这里的阀值究竟是指什么???(Mengen der Items, die Cluster bestimmen, haben unterschiedliche Größen.Wahl der Schwellenwerte ist also schwierig.z.B. Kaviar A,…,Kaviar Z,Lachs 1000,…, Lachs 1199),在购物单集合中,大部分情况是两张购物单之间,只有几项是相同的。这也使得越大的簇,他购物单之间的平均距离就越大。最好得方法就是每个簇都有不同的阀值。//还是不理解,高维聚类中簇是针对特定的维度的,那又何必在意原本购物单中的大小呢。而且只要特定维度上分布紧密,相应的距离也不会增大啊???(Große Menge: Viele Paare von Transaktionen haben wenige Items gemeinsam.Abstände der Transaktionen vom Durchschnitt sind größer in großem Cluster. Wann gehört Transaktion zum Cluster?Idealerweise müssten Schwellenwerte von Cluster zu Cluster unterschiedlich sein.)

一个弱化的传统的方法(Schwächen traditioneller Definitionen)

用1和0代表布尔值的真和假,然后现在是数字了,就自己看着办吧。
//然后就是把Agglomerative算法和Jaccard系数对一个例子进行分析。然后得出的结论是。。。我还是找个时间再好好看看吧S13-18
Jaccard Koeffizient是用来量化两个购物单T1和T2之间相似度的系数,他表示为:

|T1T2||T1T2|

他的值域是[0,1]

在这里我们把购物单(也就是数据对象)看成是单个的点
我们规定当两个点的相识度大于阀值的时候,他们就是邻居
另外我们规定两个点之间的links的数量等同于他们相同邻居的数量
那么我们的Links算法就是
不断的合并具有最大得Links数的点(或者说,簇)
//怎么证明,当阀值取0.5,并且使用Jaccard系数和agglomerative聚类的时候,取得的结果是正确的??
我们也可以对上面的算法进行一些改变:
1.比如我们可以尝试其他相似度的测量方法??
2.或者我们不用agglomerativ算法,我们使用k means。那么对应的数据对象就是购物单(Transaktionen),对应的Medoid也是购物单,那么距离就有links来决定,想想也是挺好的???
结论:
Clustering ist schwierig, wenn Dimensionen kategorisch sind.
Notwendigkeit, Nachbarschaft zu berücksichtigen, wurde demonstriert
Lösung wurde vorgestellt - Algorithmus muss nicht geändert werden, ‘Abstand’ wird geändert.

COBWEB

基本知识

1.通过对结构树的扩展和调整进行学习
2.通过树体现多层次概念结构:
(Repräsentation der Begriffshierarchie als Baum)
树内的每一个分支都代表着把其子树分割成两个不同的类型。
(Jede Verzweigung innerhalb des Baumes steht für eine Einteilung der Unterbäume in verschiedene Kategorien)
叶子节点代表一个特定的概念(或类型)
(Blätter sind die speziellsten Begriffe(Kategorien))
3.允许使用名词变量值。
(Es werden nominale Attributwerte gestattet)
4.挑选合适的类型
测量类型的实用性(category utility)
当满足下面两个条件时,我们说一个聚类有比较好得实用性:
1)如果x属于聚类 cj ,那么我们可以很好的预测x的属性值v(有比较高的概率)(p(v|c))(predictability/Vorhersagbarkeit)
2)如果已知x的属性v,可以用比较高的概率推出x是属于 cj 类的(p(c|v))(predictiveness/Vorhersagekraft)
5.最大化同一类型不同实例间的相似性,与此同时最大化不同类型之间的区别。
6.我们找到了一种测量predictability和predictiveness的方法(Category Utility):

CU=
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
完整版:https://download.csdn.net/download/qq_27595745/89522468 【课程大纲】 1-1 什么是java 1-2 认识java语言 1-3 java平台的体系结构 1-4 java SE环境安装和配置 2-1 java程序简介 2-2 计算机中的程序 2-3 java程序 2-4 java类库组织结构和文档 2-5 java虚拟机简介 2-6 java的垃圾回收器 2-7 java上机练习 3-1 java语言基础入门 3-2 数据的分类 3-3 标识符、关键字和常量 3-4 运算符 3-5 表达式 3-6 顺序结构和选择结构 3-7 循环语句 3-8 跳转语句 3-9 MyEclipse工具介绍 3-10 java基础知识章节练习 4-1 一维数组 4-2 数组应用 4-3 多维数组 4-4 排序算法 4-5 增强for循环 4-6 数组和排序算法章节练习 5-0 抽象和封装 5-1 面向过程的设计思想 5-2 面向对象的设计思想 5-3 抽象 5-4 封装 5-5 属性 5-6 方法的定义 5-7 this关键字 5-8 javaBean 5-9 包 package 5-10 抽象和封装章节练习 6-0 继承和多态 6-1 继承 6-2 object类 6-3 多态 6-4 访问修饰符 6-5 static修饰符 6-6 final修饰符 6-7 abstract修饰符 6-8 接口 6-9 继承和多态 章节练习 7-1 面向对象的分析与设计简介 7-2 对象模型建立 7-3 类之间的关系 7-4 软件的可维护与复用设计原则 7-5 面向对象的设计与分析 章节练习 8-1 内部类与包装器 8-2 对象包装器 8-3 装箱和拆箱 8-4 练习题 9-1 常用类介绍 9-2 StringBuffer和String Builder类 9-3 Rintime类的使用 9-4 日期类简介 9-5 java程序国际化的实现 9-6 Random类和Math类 9-7 枚举 9-8 练习题 10-1 java异常处理 10-2 认识异常 10-3 使用try和catch捕获异常 10-4 使用throw和throws引发异常 10-5 finally关键字 10-6 getMessage和printStackTrace方法 10-7 异常分类 10-8 自定义异常类 10-9 练习题 11-1 Java集合框架和泛型机制 11-2 Collection接口 11-3 Set接口实现类 11-4 List接口实现类 11-5 Map接口 11-6 Collections类 11-7 泛型概述 11-8 练习题 12-1 多线程 12-2 线程的生命周期 12-3 线程的调度和优先级 12-4 线程的同步 12-5 集合类的同步问题 12-6 用Timer类调度任务 12-7 练习题 13-1 Java IO 13-2 Java IO原理 13-3 流类的结构 13-4 文件流 13-5 缓冲流 13-6 转换流 13-7 数据流 13-8 打印流 13-9 对象流 13-10 随机存取文件流 13-11 zip文件流 13-12 练习题 14-1 图形用户界面设计 14-2 事件处理机制 14-3 AWT常用组件 14-4 swing简介 14-5 可视化开发swing组件 14-6 声音的播放和处理 14-7 2D图形的绘制 14-8 练习题 15-1 反射 15-2 使用Java反射机制 15-3 反射与动态代理 15-4 练习题 16-1 Java标注 16-2 JDK内置的基本标注类型 16-3 自定义标注类型 16-4 对标注进行标注 16-5 利用反射获取标注信息 16-6 练习题 17-1 顶目实战1-单机版五子棋游戏 17-2 总体设计 17-3 代码实现 17-4 程序的运行与发布 17-5 手动生成可执行JAR文件 17-6 练习题 18-1 Java数据库编程 18-2 JDBC类和接口 18-3 JDBC操作SQL 18-4 JDBC基本示例 18-5 JDBC应用示例 18-6 练习题 19-1 。。。
完整版:https://download.csdn.net/download/qq_27595745/89522468 【课程大纲】 1-1 什么是java 1-2 认识java语言 1-3 java平台的体系结构 1-4 java SE环境安装和配置 2-1 java程序简介 2-2 计算机中的程序 2-3 java程序 2-4 java类库组织结构和文档 2-5 java虚拟机简介 2-6 java的垃圾回收器 2-7 java上机练习 3-1 java语言基础入门 3-2 数据的分类 3-3 标识符、关键字和常量 3-4 运算符 3-5 表达式 3-6 顺序结构和选择结构 3-7 循环语句 3-8 跳转语句 3-9 MyEclipse工具介绍 3-10 java基础知识章节练习 4-1 一维数组 4-2 数组应用 4-3 多维数组 4-4 排序算法 4-5 增强for循环 4-6 数组和排序算法章节练习 5-0 抽象和封装 5-1 面向过程的设计思想 5-2 面向对象的设计思想 5-3 抽象 5-4 封装 5-5 属性 5-6 方法的定义 5-7 this关键字 5-8 javaBean 5-9 包 package 5-10 抽象和封装章节练习 6-0 继承和多态 6-1 继承 6-2 object类 6-3 多态 6-4 访问修饰符 6-5 static修饰符 6-6 final修饰符 6-7 abstract修饰符 6-8 接口 6-9 继承和多态 章节练习 7-1 面向对象的分析与设计简介 7-2 对象模型建立 7-3 类之间的关系 7-4 软件的可维护与复用设计原则 7-5 面向对象的设计与分析 章节练习 8-1 内部类与包装器 8-2 对象包装器 8-3 装箱和拆箱 8-4 练习题 9-1 常用类介绍 9-2 StringBuffer和String Builder类 9-3 Rintime类的使用 9-4 日期类简介 9-5 java程序国际化的实现 9-6 Random类和Math类 9-7 枚举 9-8 练习题 10-1 java异常处理 10-2 认识异常 10-3 使用try和catch捕获异常 10-4 使用throw和throws引发异常 10-5 finally关键字 10-6 getMessage和printStackTrace方法 10-7 异常分类 10-8 自定义异常类 10-9 练习题 11-1 Java集合框架和泛型机制 11-2 Collection接口 11-3 Set接口实现类 11-4 List接口实现类 11-5 Map接口 11-6 Collections类 11-7 泛型概述 11-8 练习题 12-1 多线程 12-2 线程的生命周期 12-3 线程的调度和优先级 12-4 线程的同步 12-5 集合类的同步问题 12-6 用Timer类调度任务 12-7 练习题 13-1 Java IO 13-2 Java IO原理 13-3 流类的结构 13-4 文件流 13-5 缓冲流 13-6 转换流 13-7 数据流 13-8 打印流 13-9 对象流 13-10 随机存取文件流 13-11 zip文件流 13-12 练习题 14-1 图形用户界面设计 14-2 事件处理机制 14-3 AWT常用组件 14-4 swing简介 14-5 可视化开发swing组件 14-6 声音的播放和处理 14-7 2D图形的绘制 14-8 练习题 15-1 反射 15-2 使用Java反射机制 15-3 反射与动态代理 15-4 练习题 16-1 Java标注 16-2 JDK内置的基本标注类型 16-3 自定义标注类型 16-4 对标注进行标注 16-5 利用反射获取标注信息 16-6 练习题 17-1 顶目实战1-单机版五子棋游戏 17-2 总体设计 17-3 代码实现 17-4 程序的运行与发布 17-5 手动生成可执行JAR文件 17-6 练习题 18-1 Java数据库编程 18-2 JDBC类和接口 18-3 JDBC操作SQL 18-4 JDBC基本示例 18-5 JDBC应用示例 18-6 练习题 19-1 。。。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值