字符串转数组性能简单对比——实战场景

在战斗中提升自己——《海贼王》

最近在做筛选相似文本的工作,准备了3万个文本。一开始凭我的直觉应该不会有什么大的问题,毕竟这一块已经有很多人做过了。例如jieba、百度NLP等。然而当我以为就要完工时,问题还是来了。先看个计算公式30000^2/2/20/3600/24=260,30000个文本两两做对比结果需要260天才能完成,然后我就笑了,再然后就硬着头皮开始研究算法。在这个过程中就有了下面的问题:

问题:有一串str类型的数字,如何快速的转换成数组?

我这里给出了四种方法,并给出了简单的性能对比

方法一:

%%timeit
l = []
for i in '123456789123456789123456789':
  l.append(int(i))
np.array(l)

结果:11.2 µs ± 114 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

方法2:

%%timeit
np.array([i for i in '123456789123456789123456789'], dtype='int8')

结果:7.12 µs ± 50.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

方法3:

%%timeit
np.array(list('123456789123456789123456789'), dtype='int8')

结果:6.52 µs ± 52 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

方法四:

%%timeit
np.fromiter('123456789123456789123456789', 'int8')

结果:4.07 µs ± 33.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

从方法一到方法四性能都有提升,方法四比方法一的性能提升还是非常显著的。性能的一点点提升在大量计算面前表现出来的结果可能就是几分钟与几个小时甚至几天的差别了。

转载于:https://my.oschina.net/tsingliu/blog/1929969

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值