数据挖掘之无监督学习篇

最新推荐文章于 2022-11-30 20:46:48 发布

feng_lilan

最新推荐文章于 2022-11-30 20:46:48 发布

阅读量3.7k

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lilanfeng1991/article/details/42916001

版权

数据挖掘专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文主要是在看<<Web 数据挖掘>> Bing Liu著的这本书的笔记

1. 基本概念

监督学习（Supervised Learning）：通过发现数据attributes和类别attributes之间的关联模式，并通过利用这些模式来预测未知数据实例的类别属性。

聚类（Clustering）：是一种发现数据内在结构的一种技术，处于相同聚类中的数据实例彼此相似，处于不同聚类中的实例则彼此不同。【是一个将数据集中的某方面相似的数据成员进行分类组织的过程】

一个数据实例被称作对象（Object），或数据点（Data Point）

划分聚类（Partitional Clustering）

层次聚类（Hierachical Clustering）

2. k-均值聚类

（1）k-均值算法

（2）k-均值算法的硬盘版本

k-均值算法在处理大规模数据时，有时不能满足将全部数据集都加载到内在中去，k个聚类中心可以每次循环的增量来计算。

基于硬盘的方法实现

（3）优势和劣势

k-均值：简洁及效率高。但不能处理Categorical Data，此时可考虑使用k-modes算法。k-modes用模来替代均值作为聚类中心，需指定聚类数目k，且算法对于异常值十分敏感。

3. 聚类的表示

（1）用聚类中心来表示每个聚类

（2）利用分类模型来表示聚类

4. 层次聚类

聚类树（树状图【Dendrogram】）来完成聚类

合并（自下而上）聚类：

分裂（自上而下）聚类：

（1）单链接方法【有连锁反应】

在单链接（或单链）层次聚类中，两个聚类之间的距离是两个聚类中最近的两个数据点（两个数据分别来自两上不同的聚类）之间的距离。即单链接聚类算法在每一步合并那些最近元素具有最小的聚类，即最短最近数据点的两上聚类。

（2）全链接方法【对异常值敏感】

在全链接（或全链）聚类中，两个聚类之间的距离是两个聚类中所有数据点之间聚类的最大值。

即全链接聚类算法在每一步合并那些最远元素具有最短距离的聚类，即具有最短最远数据点的两上聚类。

（3）平均链接方法

是一种介于全链接防范对于异常值的敏感性和单链接方法形成长链（这种长链不符合聚类是紧密的椭圆体一常识）的趋势之间的折衷方法。

该方法中，两个聚类之间的距离是两具聚类之中多个数据点对之间距离之和的平均值。

另外

聚类中心方法：两个聚类之间的距离是两个聚类中心之间的距离。

Ward方法：两个聚类之间的距离被定义为合并之后聚类的误差平方和相对于两个聚类的误差平方和之和的增量。

优点：相比于k-均值聚类，层次聚类能够使用任何形式的距离或相似度函数

缺点：单链接方法会受到连锁反应的影响

全链接方法对异常值十分敏感

最主要不中之处是层次聚类至少平方的计算复杂度和空间需求，与k-均值算法相比，在处理大规模数据时十分低效。

5. 距离函数

（1）数值的属性（Numeric Attributes）

闵可夫斯基距离（Minkowski Distance）

曼哈顿距离（Manhanttan Distance）

欧几里德距离（Euclidean Distance）

加权欧几里德距离

平方欧几里德距离

切比雪夫距离（Chebychev Distance）

（2）布尔属性和符号属性（Binary and Nominal Attributes）

对称属性

非对称属性

6. 数据标准化

区间度量属性（Interval-scaled Attributes）：这些属性是指数字/连续属性，它们是符合线性标题的实数。

范围标准化

z-score标准化

比例度量属性

符号（无序范畴）属性

顺序（顺序范畴）属性

7. 聚类的评估

用户体验：专家验收及评估

真实数据（Ground Truth）：分类数据集被用来评估聚类算法

熵：

纯度（Purity）：

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
数据挖掘之无监督学习篇

本文主要是在看> Bing Liu著的这本书的笔记1. 基本概念监督学习（Supervised Learning）：通过发现数据attributes和类别attributes之间的关联模式，并通过利用这些模式来预测未知数据实例的类别属性。聚类（Clustering）：是一种发现数据内在结构的一种技术，处于相同聚类中的数据实例彼此相似，处于不同聚类中的实例则彼此不同。【是一个将数据集
复制链接

扫一扫

专栏目录

feng_lilan CSDN认证博客专家 CSDN认证企业博客

码龄13年

110: 原创

13万+: 周排名

39万+: 总排名

141万+: 访问

: 等级

8838: 积分

725: 粉丝

588: 获赞

54: 评论

3610: 收藏

私信

关注

热门文章

分类专栏

R 65篇
Unix & linux 8篇
python 5篇
excel 2篇
js 7篇
DB 1篇
数据结构 52篇
统计学 17篇
数据挖掘 9篇
杂七杂八 16篇

最新评论

最快速合并大量csv文件
weixin_48782826: 多个文件夹的阁下怎么接
实现广义表求表头和表尾的运算
qq_63420679: 厉害，直接解决
R语言之随机数与抽样模拟篇
chayibaishan: 你要先运行这个呀 sim.fun <-function (m,f,...) # m 模拟样本次数，f需模拟的函数 { sample <-1:m for (i in 1:m) { sample[i] <-f(...) } sample }
R语言处理缺失数据的高级方法
Kikibay: 请问相关性探索缺失值模式时，sd(x)＞0的目的是什么，这一步会报错，'list' object cannot be coerced to type 'double'，应该如何解决呢？
R语言处理缺失数据的高级方法
你是学不会gis的！: 放大一下图片试试

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。