这一切看起来不错,直到最后一步。 SVD的通常表示法是返回三个矩阵A = USV *。 S是一个对角矩阵(意思是对角线上的所有零),在这种情况下,基本上给出了每个维度捕获原始数据的量度。数字(“奇异值”)将会下降,并且您可以查找有多少维度有用的下拉菜单。否则,你只需要选择一个任意数字N来表示需要多少维度。
这里我有点模糊。在降维空间中的术语(单词)的坐标或者是U或V,我认为取决于它们是否在输入矩阵的行或列中。另一方面,我认为这些字的坐标将是U的行,即U的第一行对应于输入矩阵的第一行,即第一个字。然后,您只需将该行的前N列作为缩小空间中的单词坐标。
HTH
更新:
到目前为止,这个过程并没有告诉你如何挑选标签。我从来没有听说过有人使用LSI来选择标签(机器学习算法可能更适合于任务,比如说决策树)。 LSI告诉你两个词是否相似。这是分配标签的很长一段时间。
有两个任务 - a)要使用哪组标签? b)如何选择最好的三个标签?我对LSI如何帮助您回答(a)没有太多的了解。您可以手动选择一组标签。但是,如果您使用LSI,标签可能应该是文档中出现的单词。然后,对于(b),您要挑选与文档中找到的单词最接近的标签。你可以尝试一些实现它的方法。选择与文档中任何单词最接近的三个标签,其中靠近标签的坐标(U中的行)与单词的坐标(U中的行)之间的余弦相似度(请参见维基百科)进行测量。