pandas 高效运算
文章平均质量分 77
风暴之零
GSM LTE NR VBA SQL Python 区块链
展开
-
基与距离和字符串相似的地址匹配
基与距离和字符串相似进行地址匹配,主要分为三部分。数据:业务源数据:df_s 包含业务地址、经纬度待查找数据:df_find包含待查找地点地址、经纬度1、计算业务源地址的经纬度与待查找地址经纬度的距离,进行初筛。2、对df_s字符串和df_find字符串进行处理,为字符串相似做准备。2.1.通过cpca库进行地址分词,去除省市信息仅保留最少地址信息。2.2.通过正则去除字符串的特殊字符,仅保留字母、数字、汉字。3、通过字符串相似算法,计算df_s和df_find的相似性。原创 2022-12-04 18:59:57 · 459 阅读 · 0 评论 -
Python性能优化实践—曼肯德尔趋势检验计算效率提升
曼—肯德尔算法可以进行序列趋势和突变点的检验,实践发现对趋势的检验有较高的准确性,对突变点的检验相对较差。本文参考相关资料通过Python实现了对序列的曼肯德尔检验并进行了运行优化,提升了生产中的应用价值。本次实践主要使用了算法优化、函数缓存、循环遍历优化、多进程、numba优化。由于整个过程以numpy数组的数值计算为主进一步还可以使用向量化进行加速,或者使用numexpr对Z值计算部分进行优化,但是未实践。原创 2022-11-27 10:54:29 · 804 阅读 · 0 评论 -
利用机器学习算法,高效分析地图数据中位置的距离关系
利用机器学习算法中sklean库中KNN、高效分析地图位置点的关系。其中KNN模块中主要使用ball-tree数据结构模型,提高运算效率完成各类距离关系分析。k-近邻算法的核心思想是未标记样本的类别,由距离其最近的k个邻居投票决定。一、计算经纬度间的距离1、计算任意两个点的距离2、计算numpy数组的距离。二、计算距离m内个所有的点。三、查找n个最近的点...原创 2023-03-30 16:10:04 · 623 阅读 · 0 评论 -
python pandas 使用迭代器高效遍历行和列
pandas遍历行和列效率最高的是apply方法,其次是使用迭代器遍历,apply方法在灵活性上不如使用迭代器遍历。使用迭代器有for_zip、itertuples、iterrows、items四种方法,最慢的iterrow使用效率可以比iloc等切片方法快300多倍。结合资料和我自己的测试,5种方法效率中,apply>for_zip>itertuples>items>iterrows。...原创 2022-07-17 11:52:38 · 1483 阅读 · 1 评论 -
使用joblib库,通过并发加速Python pandas库 apply函数,n核n-1倍
pandas的apply方法通过在底层进行优化后,本身效率已经比较高,通过并发进行优化,可以进一步提升效率。本文介绍了一个案例pandas的apply单核约运行150s,使用4核时可以达到40s左右,使用3核时非最佳配置约为55s左后,使用最佳配置任务数=3*n_jobs也即分为9个块时,执行最快可以达到45s左右。自然cpu核数越多加速越快。......原创 2022-07-17 10:45:43 · 823 阅读 · 0 评论 -
使用joblib库,通过并发提升pandas计算效率
pandas本身计算是非多进程的,joblib是一种Python的多进程库,可以实现并发和大量磁盘数据的读写。我们把他应用到pandas提升pandas的计算效率。包括使用场景、方法和常用参数。原创 2022-07-17 00:52:48 · 367 阅读 · 0 评论