1.数据挖掘的主要任务:
【1】描述数据,发现特点、模式、规律 eg聚类
【2】预测
2大数据:不仅仅是指大量的数据、也指高维的数据。
3.给了一个网站:www.mmds.org 上面有书的pdf和ppt,具体课程怎么看还未探索
4.聚类
【1】聚类的目标:就是区分相似与不相似,不相似的分开,相似的组队,这样一个过程。 启:遇到相似,可想到聚类的方法
【2】作用:更好的理解数据集的特点
【3】那么如何衡量相似呢?用距离:欧式距离、余弦距离、编辑距离等
【4】聚类本身就是自然分为几类的数据打乱后让其恢复的算法,所以可以利用这一点,判断所聚的类是否合适
一、簇的密度 二、平均直径(每个簇的直径平均值)
5.维数灾难
【1】|AB| = √[(x₁-x₂)²+(y₁-y₂)²],如果维数足够多,根号内项数就会足够多,整体都趋近与无穷。不同点之间距离都往无穷跑,无法衡量
【2】从余弦距离入手,两向量余弦值=(两向量的内积)/各自的模。
同样假定抽取随机向量,分子:两向量的内积是随机值之和趋向于0。分母:各自的模趋向无穷。整体:趋向于0即余弦值趋向于0
角度趋向90度
6.层次聚类
【1】取距离最小的两点作为一类 理解:距离越小越相似
【2】如何代表一个簇间的距离,eg、簇的质心间距离...数据挖掘书 p195页
【】像层次聚类这种所有点合并过程中形成树的过程,很有实际意义。eg:衡量基因的相似度--树型反应物种的进化过程