Python大数据量计数

介绍

大数据量计数问题是我在数学建模中碰到的,如果只是普通数据量的计数问题那么我们不妨使用Counter,但是如果数据量达到一定规模,那么我们不得不考虑其他算法来解决问题了。我们这里使用hyperloglog算法来实现大数据量计数问题,这种算法是一种基于统计的计数算法,算法并不一定准确,但是足够快,如果读者将速度放在第一位那么不妨试试这种算法,而且hyperloglog算法准确率逼近100%,试问1000001和100000又有多大的差距呢,所以这种算法是有一定实用性的。
当然作为胶水语言的Python,当然不必重复造轮子,这里我们可以直接使用python的bounter库来实现hyperloglog算法计数。

安装

bounter的安装和其他python包一样,直接使用包管理工具pip安装即可,但是由于安装bounter的过程需要使用使用VS的编译器进行编译,所以建议读者安装bounter之前最好先安装VS环境或者其他C语言编译环境例如MinGW,不然安装过程会报错,具体解决办法大家可以在网上搜索一下,有很多解决办法。
安装方法:pip install bounter

代码实现

这里给出bounter在github上的官方教材使用的代码:
具体用法请参考GitHub官方文档
示例一:

from bounter import bounter

counts = bounter(size_mb=1024)  # use at most 1 GB of RAM
counts.update([u'a', 'few', u'words', u'a', u'few', u'times'])  # count item frequencies

print(counts[u'few'])  # query the counts
2

示例二

from bounter import bounter

counts = bounter(size_mb=200)  # default version, unless you specify need_items or need_counts
counts.update(['a', 'b', 'c', 'a', 'b'])
print(counts.total(), counts.cardinality())  # total and cardinality still work
(5L, 3)
print(counts['a'])  # individual item frequency still works
2

print(list(counts))  # iterator returns keys, just like Counter
[u'b', u'a', u'c']
print(list(counts.iteritems()))  # supports iterating over key-count pairs, etc.
[(u'b', 2L), (u'a', 2L), (u'c', 1L)]

注:bounter有个可选参数need_iteration,它的默认值为True,意为返回一个类似dict的可迭代对象,如果设置为False,结果为不可迭代的。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值