NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式

最新推荐文章于 2024-06-05 10:39:18 发布

勤奋的郑先生

最新推荐文章于 2024-06-05 10:39:18 发布

阅读量5.3k

点赞数 2

文章标签： memoryerror python nlp countvectorize

本文链接：https://blog.csdn.net/weixin_41370083/article/details/82454674

版权

昨天做NLP词频矩阵处理时候，遇到内存不足的问题，遇到memoryerror的情况。查了不少资料，都让我在大的机器上跑，但是有时候资源有限。

由于我的句子中的每个词语都是重要的，所以不设置停用词，也就是countvectoirze才符合我的需求，而并非TFIDFVECTORIZE，TFIDF是为了减小句子中的一些出现频率高但是却没有意义的词的权重。因此我选择了countvectorize。

当数据量小的时候，我们可以这样进行词频矩阵

from sklearn.feature_extraction.text import CountVectorizer
count_vec=CountVectorizer(token_pattern=r"(?u)\b[^/]+\b")
X_count_train = count_vec.fit_transform(word_list1)
X_count_train= X_count_train.toarray()




#结果
成功输出！

但是当我的数据量有130W+的句子。其中存在重复项70W+。一些电脑内存不够时，就会出现memoryerror！！

以下为做COUNTVECTORIZE词频矩阵代码：

from sklearn.feature_extraction.text import CountVectorizer
count_vec=CountVectorizer(token_pattern=r"(?u)\b[^/]+\b")
X_count_train = count_vec.fit_transform(word_list

最低0.47元/天解锁文章

勤奋的郑先生

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
2
评论
NLP 做词频矩阵时，遇到特大矩阵触发memoryerror的处理方式

昨天做NLP词频矩阵处理时候，遇到内存不足的问题，遇到memoryerror的情况。查了不少资料，都让我在大的机器上跑，但是有时候资源有限。由于我的句子中的每个词语都是重要的，所以不设置停用词，也就是countvectoirze才符合我的需求，而并非TFIDFVECTORIZE，TFIDF是为了减小句子中的一些出现频率高但是却没有意义的词的权重。因此我选择了countvectorize。当...
复制链接

扫一扫