【无监督学习】积累与发现

最新推荐文章于 2024-07-17 10:04:54 发布

dominic_z

最新推荐文章于 2024-07-17 10:04:54 发布

阅读量259

点赞数

分类专栏：机器学习与数据挖掘文章标签：机器学习

本文链接：https://blog.csdn.net/dominic_z/article/details/86751913

版权

机器学习与数据挖掘专栏收录该内容

12 篇文章 0 订阅

订阅专栏

K-Means

Canopy Clustering
Canopy算法聚类
 算法杂货铺——k均值聚类(K-means)
基本Kmeans算法介绍及其实现(距离的度量)
K-median和K-mediod提了一下

K-median求的中心是每个维度的中位数，因此对异常点会更加鲁棒；K-mediod的中心必须是样本之中的点，感觉这个要求很鸡肋，可能说用来找某一个类的代表性样本比较有用。

K-means与K-means++

DBSCAN

聚类方法：DBSCAN算法研究（1）–DBSCAN原理、流程、参数设置、优缺点以及算法
 DBSCAN密度聚类算法

优缺点很好

TSNE

TSNE——目前最好的降维方法
 t-SNE算法

LOF

异常点/离群点检测算法——LOF

为什么要从lrd再计算一个LOF呢，因为要比较某一个点的lrd和其K邻域内的点的lrd，举个例子，尽管某个点的lrd不大，处于非密集区，但假如它周围的点都是这个样子呢，那只能说这个点是处于一个稀疏的区域，但他并不是outlier

EM算法

原理还是统计学习方法里写的好

统计学习方法内容总结，不同书上的Q函数定义不太一样，所以就干脆丢了Q函数的意义，直接记住最大化的期望是什么就可以了，花里胡哨的。
但无论怎样，请记住EM算法最大化的是是：在Given 已知变量与参数的情况下，观测数据（也就是不完全数据）的对数似然： $P(X|\theta)$ ，或者写成样本的概率连乘积 $\prod p(x_i|\theta)$ 也行
$x_i$ 为第 $i$ 个样本的已知变量， $z_i$ 为其隐含变量，隐含变量的取值空间为 $Z=\{z^1,...,z^K\}$ ，此时的参数为 $\theta_t$ ，对数似然似然函数为
$\begin{aligned} \sum_{i=1}^m logP(x_i|\theta) &=\sum_{i=1}^m log\sum_{j=1,z_i=z^j} ^K P(x_i,z_i|\theta) \\ &=\sum_{i=1}^m log\sum_{j=1,z_i=z^j} ^K P(z_i|x_i,\theta_t) \frac{P(x_i,z_i|\theta)}{P(z_i|x_i,\theta_t)} &(1) \\ \end{aligned}$
其实就是通过乘以除以 $P(z_i|x_i,\theta_i)$ 来构造Jensen不等式，就是构造一个期望，如下所示
由于Jensen不等式，即对于凹函数（就是上半圆）来说， $f(E(X))\ge E(f(X))$ ，如果我们把 $f=log,X=\frac{P(x_i,z_i|\theta)}{P(z_i|x_i,\theta_t)}$ ，于是就有
$\begin{aligned} (1) & \ge \sum_{i=1}^m \sum_{j=1,z_i=z^j}^K P(z_i|x_i,\theta_t) log \frac{P(x_i,z_i|\theta)} {P(z_i|x_i,\theta_t)} \\ \end{aligned}$
那么极大似然估计的时候，与 $\theta$ 相关的只有 $\sum_{i=1}^m \sum_{j=1,z_i=z^j}^K P(z_i|x_i,\theta_t) log P(x_i,z_i|\theta)$ ，因为上式中 $l o g$ 里的分母和优化目标无关
于是就有 $Q(\theta,\theta_t)=\sum_{i=1}^m \sum_{j=1,z_i=z^j}^K P(z_i|x_i,\theta_t) log P(x_i,z_i|\theta)$ ，然后最大化 $\theta$ 就行了
更一步，你看这个 $Q(\theta,\theta_t)$ 等于什么，他等于一个期望 $E(logP(X,Z|\theta)|X,\theta_t)$ ，至于为啥，因为期望里未知的随机变量只有Z，所以 $P[logP(X,Z|\theta)=logP(X,z_i|\theta)|X,\theta]=P(Z=z_i|X,\theta)$
复习一下条件期望
KMEANS与EM的关系见百面机器学习

频繁模式

频繁模式挖掘 Apriori
数据挖掘十大算法之Apriori详解
 FP Tree算法原理总结
 序列模式挖掘—PrefixSpan
PrefixSpan算法原理总结

前缀后缀的概念pinard写的不太明白，简书那篇更明白一些，prefixspan算法实际是在找“一个串关于某个前缀的后缀”，例如，A=<a(abc)d(bc)e>关于B=<bd>的投影是C=<bd(bc)e>，因为C是A的所有以B为前缀子串中最长的那个，这也是投影的定义，然后A关于前缀B的后缀等于——从A关于前缀B的投影C删掉B剩余的那部分，也就是<(bc)e>
又如<(ad)c(bc)(ae)>关于<db>的投影是<d(bc)(ae)>，则<(ad)c(bc)(ae)>关于<db>的后缀就等于<(_c)(ae)>