index = similarities.MatrixSimilarity(lsi[corpus]) #
管网的原文翻译如下:
警告:similarities.MatrixSimilarity类仅仅适合能将所有的向量都在内存中的情况。例如,如果一个百万文档级的语料库使用该类,可能需要2G内存与256维LSI空间。
如果没有足够的内存,你可以使用similarities.Similarity类。该类的操作只需要固定大小的内存,因为他将索引切分为多个文件(称为碎片)存储到硬盘上了。它实际上使用了similarities.MatrixSimilarity和similarities.SparseMatrixSimilarity两个类,因此它也是比较快的,虽然看起来更加复杂了。
现在我就是大语料库,MatrixSimilarity这个类运行,就报错 Memory Error
可是关于similarities.Similarity 用法 在哪里呢??在哪里呢??在哪里呢??在哪里呢??
搜尽全网都没有答案,最可恶的是管网也不提这个用法。你不写参数,我知道咋用啊。
感恩,感恩

当处理大型语料库时,MatrixSimilarity 报错 Memory Error。gensim 提供了 similarities.Similarity 类来解决内存问题。该类将索引切分存储到硬盘,使用固定内存并结合其他类实现快速查询。在使用 Similarity 类时,需要提供存储缓存文件的地址、tfidf 向量化后的语料库和语料库文本的数量作为参数。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



