python for 加速_K-means算法SciPy加速实现

927b6a67f21d54c10f109ca229085163.png

K-means算法很简单也很好写,几层for循环嵌套在一起搞定了。这里就不再赘述。

bac05ee4581431311ea507bc0149d7cf.png

上图这种基于for循环的写法基本上只能用在教学用途,如果在实际工程中用这种嵌套for循环就会造成灾难。以512*512的图像压缩为例,上面双层for循环实现基本上没半个小时跑不出来。

K-means工程化或者半工程化的关键就是进行向量化和并行化,如果用Python来做的话,重点就是用好NumPy和SciPy。

60b23cb4f5d168884653d4006465e719.png

这里推荐SciPy的cdist方法,我找了很久才找到它(知乎上仅有少数几个朋友写了cdist,不过并没突出它的加速比)。cdist方法可以并行化地计算向量N与向量M之间元素的两两距离,然后返回N*M的距离矩阵。

SciPy v1.3.2 Reference Guide​docs.scipy.org

使用了这个cdist函数之后,就可以把多层嵌套的kmeans实现提速大概100多倍。仅仅优化这个部分就可以把整个算法的性能提高75%以上,贼给力。

这次的目的就是建议大家在写这种基于距离的算法时不要忘记了cdist。好了,不浪费大家时间,今天就讲这么多。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值