定义:没有golden label(只有一边,input or output)
- 分类:
·clustering and dimension (化繁为简)eg:输入一堆真实的树 输出简单的树
·generation(无中生有) eg:输入random number 自动输出一张图片(只有output 没有input)
clustering
eg:输入一堆图片,聚类成多个类别
key question:how many clusters do we need?
main model:
1.k-means
方法:
1. 随机确定K个cluster的中心
2. 计算每个图片于中心的距离根据此距离分类
3. 计算该类中距离的平均 更新中心
4. 反复123 直到中心无变化
- Hierarchical Agglomerative Clustering (HAC)
方法:1. 建立一个树(看看两两之间最接近的是那两类
2. 选着一个阈值(阈值决定了是需要分成几个类
K-means VS HAC: 有时候很难确定需要几个类别时,可以使用HAC
cluster的缺陷:每个input一定对应着某一个类,会以偏概全
→then improve: distributed representation:用一个vector来表示input,vector为该input是各个类的比例
dimension reduction
- PCA
目的:将高维的input 变为低维(如图)
简单理解:做X在W上的投影(W的维度决定reduce之后X的维度)
W怎么找?如图有两种W,那哪一个W更好?目的:reduction之后X之间的variance越大越好 显然斜上角的W之后variance更大。用Var来表示。
注 W的模要为1,非则会改变X的大小
如何解W?
*为什么 第二大的就是和第一的W垂直 因为都特征向量
PCA的第二种理解
一张图片是由多个component组成的
eg: 手写数字7是由1U1+2U2+。。。组成的(见下方方程式,其中X^是平均)
PCA→NN
但是NN的方法 不能保证W1,W2是垂直的
PCA的缺点
PCA实践
问题:component不是原图像的一个部分,更像一张完整的图像 why?
解释:W可以为负,eg:写好一个完整的8去掉下半部分再加上一竖,变成9
Matrix factorization
问题:每个人拥有的手办数目不同,但是有一定的逻辑性–可能与角色的属性有关。
因此设不同人ra,和角色的r1,ra*r1=该人拥有该角色手办的数量
任务:minimize 计算出来的Matrix X与实际Matrix X的差距
注:其中属性K是需要手动调整的
常会运用在推荐软件上
进一步:实际操作中有些值是缺失的。
解决方案:只计算有真实值的loss,强行梯度下降
改进:一个人购买手办的数量与该人购买的欲望相关+也与角色的人气相关