LSI

目录

算法步骤

优缺点

优点

缺点

适用场景

实现目的

上下游算法

上游

下游


算法步骤

        1.构建词-文档矩阵(TF-IDF)。
        2.利用SVD进行降维(k维)。
        3.计算降维后的词-文档矩阵。
        4.文档相似度(余弦)计算。

优缺点

优点

            1)低维空间表示可以刻画同义词,同义词会对应着相同或相似的主题。
            2)降维可去除部分噪声,是特征更鲁棒。
            3)充分利用冗余数据。
            4)无监督/完全自动化。
            5)与语言无关。


缺点

            1)每一次查询都要重新计算一次SVD,而SVD是十分消耗计算资源的;
                非负矩阵分解(NMF)可以解决矩阵分解的速度问题。
            2)概念数量k的选择并不容易;
                大部分主题模型的主题的个数选取一般都是凭经验的,较新的层次狄利克雷过程(HDP)可以自动选择主题个数。
            3)LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。
                PLSI(PLSA)和LDA这类基于概率分布的主题模型来替代基于矩阵分解的主题模型。

适用场景

        原始的词-文档矩阵太大导致计算机无法处理,降维后的新矩阵式原有矩阵的一个近似。
        原始的词-文档矩阵中有噪音,降维后的新矩阵式原矩阵的一个去噪矩阵。
        原始的词-文档矩阵过于稀疏。原始的词-文档矩阵精确的反映了每个词是否“出现”于某篇文档的情况,然而我们对某篇文档“相关”的所有词更感兴趣,因此需要发掘一个词的各种同义词的情况。


实现目的


        单词相关度计算
        特征降维
        聚类

上下游算法

上游

            词向量模型
                BOW
                TF-IDF
                N-gram
                Word2Vec
                VSM
            矩阵分解
                SVD
                NMF

下游

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
资源分成两个文件下载(因为单个文件超限禁止上传),请进入我的资源列表下载另一压缩包 Supported MegaRAID Controllers ============================== MegaRAID SAS 9362-4i MegaRAID SAS 9362-8i MegaRAID SAS 9361-4i MegaRAID SAS 9361-8i MegaRAID SAS 9363-4i MegaRAID SAS 9380-8e MegaRAID SAS 9381-4i4e MegaRAID SAS 9361-8iCC MegaRAID SAS 9380-8eCC MegaRAID SAS 9364-8i MegaRAID SAS 9340-8i MegaRAID SAS 9341-8i MegaRAID SAS 9341-4i MegaRAID SAS 9270-8i MegaRAID SAS 9271-4i MegaRAID SAS 9271-8i MegaRAID SAS 9271-8iCC MegaRAID SAS 9286-8e MegaRAID SAS 9286CV-8e MegaRAID SAS 9286CV-8eCC MegaRAID SAS 9265-8i MegaRAID SAS 9285-8e MegaRAID SAS 9240-4i MegaRAID SAS 9240-8i MegaRAID SAS 9260-4i MegaRAID SAS 9260CV-4i MegaRAID SAS 9260-8i MegaRAID SAS 9260CV-8i MegaRAID SAS 9260DE-8i MegaRAID SAS 9261-8i MegaRAID SAS 9280-4i4e MegaRAID SAS 9280-8e MegaRAID SAS 9280DE-8e MegaRAID SAS 9280-24i4e MegaRAID SAS 9280-16i4e MegaRAID SAS 9260-16i MegaRAID SAS 9266-4i MegaRAID SAS 9266-8i MegaRAID SAS 9285CV-8e MegaRAID SAS 8704ELP MegaRAID SAS 8704EM2 MegaRAID SAS 8708ELP MegaRAID SAS 8708EM2 MegaRAID SAS 8880EM2 MegaRAID SAS 8888ELP MegaRAID SAS 8308ELP* MegaRAID SAS 8344ELP* MegaRAID SAS 84016E* MegaRAID SAS 8408E* MegaRAID SAS 8480E* MegaRAID SATA 300-8ELP* Supported HBA Controllers ========================= LSI SAS 9211 LSI SAS 9212 LSI SAS3041E-R LSI SAS3041X-R LSI SAS3080X-R, LSI SAS3081E-R LSI SAS3442E-R LSI SAS3442X-R LSI WarpDrive SLP-300 9212 4i4e-R spec 9211-8i/4i-R spec LSI Nytro WarpDrive WLP4-200 LSI Nytro WarpDrive WLP4-400 LSI Nytro WarpDrive BLP4-400 LSI Nytro WarpDrive BLP4-800 LSI Nytro WarpDrive BLP4-1600 LSI Nytro XD BLP4-400 LSI Nytro XD BLP4-800 LSI SAS 9207-4i4e LSI SAS 9217-4i4e LSI SAS 9207-8i LSI SAS 9217-8i LSI SAS 9207-8e LSI SAS 9201-16e LSI SAS 9200-8e
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值