想要了解潜在语义索引的原理推荐以下三个链接,仔细看下就能基本掌握LSI的原理:
3.latent semantic analysis via the singular value decomposition
LSI的核心在于svd,在sklearn中提供了svd的实现。具体接口如下:
sklearn.decomposition.TruncatedSVD(n_components=2, algorithm='randomized', n_iter=5, random_state=None, tol=0.0)
#通过给定好需要提取的components数目
#将样本作为参数传入fit或fit_transform方法即可