python对大量文本数据进行词频统计【MemoryError】报错

最近在做课题的时候,需要对大量的数据进行词频统计,大概有十万篇的文章,汇总到一个txt文件夹,有570多M的大小。一开始以为十万级的还只是比较小,当出现下面的【MemoryError】报错的时候,我知道我凉了,我知道这注定又是一个不眠之夜了。

这是代码:

import openpyxl
wb = openpyxl.load_workbook('词频.xlsx')
sheet = wb.create_sheet('词频1.0', 0)
fb2 = open('文本汇总_分词后.txt', 'r',encoding='utf-8')
word_list = []
word_dict = {}
for line in fb2:
    word_list.extend(line.strip().split(' '))
    print("正在统计第%d行"%line)
for item in word_list:
    if item not in word_dict:
        word_dict[item] = 1
    else:
        word_dict[item] += 1
sorted_dict = sorted(word_dict.items(), key=lambda x: x[1], reverse=True)
hang=1
for key in sorted_dict:
    sheet.cell(hang,1).value=key[0]
    sheet.cell(hang,2).value=str(key[1])
    hang+=1
    print('正在写入第%d个词频'%hang)
wb.save('词频.xlsx')
print("词频出来啦!")

PyCharm报错: 

 有问题先找找网上的大佬怎么解决呗,我先是找到了这个博文1

python统计千万级以上文本数据字频的一种思路

https://blog.csdn.net/lishuyou3333/article/details/78225082?locationNum=3&fps=1

但是我原本分词之后的是空格分隔的txt,而这个博文用的是CSV文件,关于CSV文件右转百度百科。

然后我又要一波把空格替换成逗号分隔符,500多M的txt替换起来还是卡了一会儿。这都不算啥,只要词频给我出来就万事大吉了。结果还是特么的【MemoryError】溢出。

PyCharm报错:

File "pandas\_libs\parsers.pyx", line 539, in pandas._libs.parsers.TextReader.__cinit__
  File "pandas\_libs\parsers.pyx", line 737, in pandas._libs.parsers.TextReader._get_header
  File "pandas\_libs\parsers.pyx", line 932, in pandas._libs.parsers.TextReader._tokenize_rows
  File "pandas\_libs\parsers.pyx", line 2112, in pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError: Error tokenizing data. C error: out of memory

唉,又是一波骚操作Error打脸。

这是内存的问题,最根本的问题,底子不足怎么整容化妆都不行呀。

再请来一个更牛逼专业的大佬:博文2

python大规模数据处理技巧之一:数据常用操作

https://blog.csdn.net/asdfg4381/article/details/51689344

直接脱胎换骨,用同学的8G内存电脑下了64位的python,运行词频.py,两分钟打工告成!

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值