机器学习之十四（读书笔记）

最新推荐文章于 2024-05-20 22:54:06 发布

VIP文章 L_cherry_

最新推荐文章于 2024-05-20 22:54:06 发布

阅读量250

点赞数

分类专栏：人工智能读书笔记文章标签： python 机器学习自动驾驶

本文链接：https://blog.csdn.net/l_cherry_/article/details/120449585

版权

Unsupervised Learning–Linear Methods
K-means
dimension reduction
Principle component analysis（主成分分析）（PCA）
Non-negative matrix factorization（NMF）
Locally Linear Embedding（LLE）
Laplacian Eigenmaps（拉普拉斯自映射）
T-distributed Stochastic Neighbor Embedding

二十二、Unsupervised Learning–Linear Methods

Dimension Reduction（降维）分为两种：
Generation（无中生有）；
在这里插入图片描述
Reduction（化繁为简）：Clustering & Dimension

1、Clustering
有一大堆的image，把它们分成一类一类的，然后把每一类贴标签分为cluster 1 ，cluster 2 等等：

现在的问题是到底要多少cluster？
最常用的方法叫做K-means：
（1）有一大堆unlabelled data $=\begin{Bmatrix} x^1,...,x^n,...,x^N \end{Bmatrix}$ ，每个 $x$ 都代表一张image，要把它们做成K个cluster；
（2）首先找这些clutster的center，需要K个center，初始的center从training data中随机地找K个object，center $c^i , i = 1,2,...,K$ ，（K random $x^n$ from $X$ ）；
（3）repeat：
for all $x^n$ in $X$ :
$b_i^n \left\{\begin{matrix} 1 \quad\quad x^n\quad is \quad most\quad "close"\quad to \quad c^i\\ 0 \quad\quad\quad \quad \quad \quad \quad \quad \quad \quad \quad Otherwise \end{matrix}\right.$
即决定现在的每一个object属于哪一个cluster， $b_i^n$ 代表第n个object属于第i个cluster
update你的cluster–update all $c^i$ ：
$c^i = \sum_{x^n}^{}b_i^nx^n/ \sum_{x^n}^{}b_i^n$
即把所有属于第i个cluster的object统统拿出来做平均，得到第i个cluster的center。

clustering还有另一个方法叫做Hierarchical Agglomerative Clustering（HAC）（层次聚合聚类方法）：
（1）先建立一个tree，例如现在有5个example，想对它们建立tree structure，把这5个example两两去算它的相似度，然后挑最相似的一对；
（2）pick a threshold（门槛），决定在哪个位置切开：
在这里插入图片描述

但是只做cluster是比较卡的，因为每个cluster都比较以偏概全，所以应该用一个vector来表示object，这个vector中的每一个dimension就代表了某一种特质，这件事情就叫做distributed representation。
如果原来的object是一个非常high dimension的东西，比如image，那么现在把它用它的特质来描述，它就会从比较高维的空间，变成比较低维的空间，这件事情就叫做Dimension Reduction（降维）。

2、Dimension Reduction
举例：考虑MNIST，在MNIST中一个digit是一个28x28 dimension的图片来描述，实际上多数28x28的dimension的vector看起来都不像数字。
那么怎么做Dimension Reduction？
找一个function，这个function的input是一个vector $x$ ，它的output是另外一个vector $z$ ，并且 $z$ 的dimension比input $x$ 小。
在这里插入图片描述
最简单的方法就是 Feature selection（特征选择）：
在二维的平面上，发现data都集中在 $x_2$ 这个dimension， $x_1$ 这个dimension没什么用就把它拿掉，选择 $x_2$

最低0.47元/天解锁文章

L_cherry_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之十四（读书笔记）

Unsupervised Learning–Linear MethodsK-meansdimension reductionPrinciple component analysis（主成分分析）（PCA）二十二、Unsupervised Learning–Linear MethodsDimension Reduction（降维）分为两种： Generation（无中生有）； Reduction（化繁为简）：Clustering & Dimension 1、Cluste.
复制链接

扫一扫