无监督的两种方式
不需要那么多维度来分析,只要保留角度的这个维度分析就够了
最常规的KMEAS聚类分析
当不知道聚类成几个类别的时候,可以用HAC两两比对分类
不一定是非黑即白一定术语某个类别,可能在不同的类别都有相应的权重占比
PCA:找一组互相不相关相互正交的向量来表示,表示的值和实际值的间距越小越好,很直观,有监督就是求出的值和实际值,无监督那既然没有实际值,那就是求出来的值本身蕴含的某种性质,比如方差最大,比如熵最小等等。还是得需要一个目标函数,套路是一样的,目标是什么。
线性代数求导的方法来求解
高斯分布假设没个维度是相互不相关的,可以先把输入做PCA处理,刚好用于下游任务
另外一个角度来理解,其实就是矩阵分解而已
SVD矩阵分解
根据矩阵的运算公式,可以表示成神经元的形式,自编码求解,区别在于神经网络梯度下降得出的值未必一定正交
无监督,所以不会考虑类别信息,考虑类别的有监督分许可以用LDA
因为线性表示的权重有正有负所以基础表示可能并不是某一部分,强制表示成某一部分可以用NMF
推荐系统很常用,有未知参数的时候,直接用神经网络,只利用有值的那部分数据即可
可以更加精准的表示
PCA在主题模型的应用就是LSA