集体智慧编程第十章寻找独立特征:在数据集未明显标注的情况下,寻找数据集的潜在特征,比如SVD分解U,V矩阵都存在隐空间。
1. NMF
从数据中提取重要特征的技术被称为非负矩阵分解(NMF)。
假设我们手上有一个对多篇文章进行单词计数信息统计的文章矩阵。我们将这个矩阵分解为两个更小的矩阵,使得二者相乘几乎完全等于原来的矩阵,这两个矩阵分别是特征矩阵和权重矩阵。假设原矩阵R(10 *1000) = M(10 *K) x N(K*1000)
1.1 NMF的特征矩阵
在特征矩阵中,每一行对应一个特征,每个单词对应一列。矩阵中的数字代表了某个单词相对于某个特征的重要程度。这里N矩阵即为特征矩阵