【Unsupervised Learning1】linear method

定义:没有golden label(只有一边,input or output)

  1. 分类:
    ·clustering and dimension (化繁为简)eg:输入一堆真实的树 输出简单的树
    ·generation(无中生有) eg:输入random number 自动输出一张图片(只有output 没有input)

clustering

eg:输入一堆图片,聚类成多个类别
key question:how many clusters do we need?

main model:
1.k-means
方法:
1. 随机确定K个cluster的中心
2. 计算每个图片于中心的距离根据此距离分类
3. 计算该类中距离的平均 更新中心
4. 反复123 直到中心无变化

  1. Hierarchical Agglomerative Clustering (HAC)
    方法:1. 建立一个树(看看两两之间最接近的是那两类
    2. 选着一个阈值(阈值决定了是需要分成几个类
    K-means VS HAC: 有时候很难确定需要几个类别时,可以使用HAC

cluster的缺陷:每个input一定对应着某一个类,会以偏概全
→then improve: distributed representation:用一个vector来表示input,vector为该input是各个类的比例

dimension reduction

  1. PCA
    目的:将高维的input 变为低维(如图)
    在这里插入图片描述
    简单理解:做X在W上的投影(W的维度决定reduce之后X的维度)
    W怎么找?如图有两种W,那哪一个W更好?目的:reduction之后X之间的variance越大越好 显然斜上角的W之后variance更大。用Var来表示。
    在这里插入图片描述
    注 W的模要为1,非则会改变X的大小
    在这里插入图片描述
    如何解W?
    在这里插入图片描述
    *为什么 第二大的就是和第一的W垂直 因为都特征向量

PCA的第二种理解
一张图片是由多个component组成的
eg: 手写数字7是由1U1+2U2+。。。组成的(见下方方程式,其中X^是平均)
在这里插入图片描述
PCA→NN
在这里插入图片描述
但是NN的方法 不能保证W1,W2是垂直的

PCA的缺点
在这里插入图片描述
PCA实践
在这里插入图片描述
问题:component不是原图像的一个部分,更像一张完整的图像 why?
解释:W可以为负,eg:写好一个完整的8去掉下半部分再加上一竖,变成9
在这里插入图片描述

Matrix factorization

问题:每个人拥有的手办数目不同,但是有一定的逻辑性–可能与角色的属性有关。
因此设不同人ra,和角色的r1,ra*r1=该人拥有该角色手办的数量
任务:minimize 计算出来的Matrix X与实际Matrix X的差距
注:其中属性K是需要手动调整的
常会运用在推荐软件上
在这里插入图片描述
进一步:实际操作中有些值是缺失的。
解决方案:只计算有真实值的loss,强行梯度下降
在这里插入图片描述
改进:一个人购买手办的数量与该人购买的欲望相关+也与角色的人气相关
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值