惊了！大牛换了个思路，就让 Pandas 快了 1000x！

最新推荐文章于 2024-05-11 10:38:20 发布

python爬虫人工智能大数据

最新推荐文章于 2024-05-11 10:38:20 发布

阅读量275

点赞数

Pandas 百问百答第 010 篇。

呆鸟云：书接上文《不会爬，没数据？没关系！3分钟搞定1w+数据，超实用！》。

上文说道，老黄想生成 100 万条模拟数据，呆鸟先测试了一下 10 万条。结果。。。，不是想象中的 1 分钟 18 秒乘以 10 的概念，而是运行了 55 分钟，运行耗时增加了 40 多倍。太吓人了，要是 100 万条，就算不考虑数据越大，速度越慢的前提，哪怕只在 10 万条耗时的基础上提高 40 倍，那也要 2200 分钟。官网上确实也说了 DataFrame 的 append() 函数操作的数据量越大，耗费的时间就越长，但真没想到会长到这种程度。

怎么办？为了提升速度，呆鸟找到了在某知名公司任职的数据分析师 ~ 龙少。

呆鸟：“龙少，您给看下这段代码怎么优化下，能让它的速度快一些？”

龙少沉吟片刻：“你的电脑太慢了，赶紧买台新电脑吧，最好买台式机，内存要 128G 的，别买笔记本，散热不好。”

下图是龙少腿部的最新留影，这里，我们要讲的是算法优化，不是硬件优化，敷衍呆鸟，就是这个下场。

龙少这条路走不通，呆鸟又找到大神松哥求助。

松哥嘟嘟囔囔的说：“我这刚出来吃饭，吃完饭给你回复。”

速度快了 183 倍

三分钟后。。。

松哥发了几行代码过来，：“你就照这个思路做吧，随便写的，先试试”

def get_counterpart(counterpart_dict, source):
    counterpart = counterpart_dict[source]
    return counterpart

sales2 = pd.DataFrame(columns=["交易日期","客户ID","售货员","分公司","产品","单价","数量","订单金额"], index=range(1000000))

sales2['交易日期'] = sales2['交易日期'].apply(lambda row: random_dater('2019-01-01', '2019-12-31'))
sales2['客户ID'] = sales2['客户ID'].apply(lambda row: "C" + str(np.random.randint(1, 1000)).zfill(4))
sales2['售货员'] = sales2['售货员'].apply(lambda row: np.random.choice(list(sales_people)))
sales2['分公司'] = sales2.apply(lambda row: get_counterpart(sales_people, row["售货员"]), axis=1)
sales2['产品'] = sales2['产品'].apply(lambda row: np.random.choice(list(products)))
sales2['单价'] = sales2.apply(lambda row: get_counterpart(products, row["产品"]), axis=1)
sales2['数量'] = sales2['数量'].apply(lambda row: np.random.randint(1, 10000))
sales2['订单金额'] = sales2['单价'] * sales2['数量']

先看下效果，生成 100 万条数据只用了不到 3 分钟！ 我 Ca，什么叫大神？这就是大神！

知识点：

生成一个长度为 100 万条的空 DataFrame，见 index=range(1000000)；
总体思路为使用 apply() 函数，配合 lambda 匿名函数，再生成每列数据；
为了配合 lambda，还要写个函数，见下方代码，该函数通过字典的键获取字典的值；

def get_counterpart(counterpart_dict, source):
    counterpart = counterpart_dict[source]
    return counterpart

注意：这段代码，除了使用了 apply() + lambda，计算方式本身并没有特别的变化。

建议大家，觉得代码速度慢的时候，首先想的应该是怎么优化算法，而不只是简单想换台电脑。

真人真事儿，前两年，技术总监在呆鸟提出用 Excel 没法快速处理数据时，给出的建议居然与龙少的意见如出一辙，换台好点的电脑！真是令人崩…溃…啊…

所以，要说松哥不愧是早就实现了百万阅读量的大神，分分钟搞定算法优化。

为了对比，呆鸟还测试了一下生成 10 万条数据的速度，只用了 18 秒，速度快了 183 倍。这只是之前代码生成 1 万条模拟数据耗时的零头。惊了！

还能再快吗？

松哥这种方法已经很快，但呆鸟还不满足，既然看到了这种可能，当然还想更快、更高、更强！

还真行，比起第二种方案大刀阔斧的改进，第三种方案只修改了第一种方案的三行代码。这也是令呆鸟惊讶的地方，如此小的改动，就能把性能提高这么多！

sale = []
for i in range(0, 100000):
    date = random_dater('2019-01-01', '2019-12-31')
    customer_id = "C" + str(np.random.randint(1, 1000)).zfill(4)
    sales_person = np.random.choice(list(sales_people))
    region = sales_people[sales_person]
    product = np.random.choice(list(products))
    price = products[product]
    quantity = np.random.randint(1, 10000)
    revenue = price * quantity
    sale.append([date, customer_id, sales_person,
                 region, product, price, quantity, revenue])
sales3 = pd.DataFrame(sale,columns=["交易日期","客户ID","售货员","分公司","产品","单价","数量","订单金额"])

大家可以看到，生成 10 万条数据只用了 12 秒，比初始方案的速度提升了 275 倍。

生成 100 万条数据也只需要 1 分钟 52 秒。这比用初始方案生成 100 万模拟数据估算的耗时 2200 分钟，足足快了 1178 倍，所以本文的标题，不但不能算哗众取宠的标题党，甚至还得说是有些保守了呢。

知识点：

与昨天的初始方案相比，这段代码的区别在于，生成一个空列表，再把添加了数据的列表转换成 DataFrame，除此之外，别的都一样。

到此为止，我们的模拟数据代码终于圆满了，即便是生成一千万的数据，也只需要 20 分钟，终于对得起 Pandas 的处理能力了。

老黄：“我就说嘛，潘大师怎么会这么慢，呆鸟哥，你还得加油啊…”

呆鸟：“。。。。-_-||，少废话，皮痒了吧，要像龙少的腿一样吗！”

本文到此为止，如果还有朋友有更好的解决方案，欢迎给我留言。

感谢老黄、龙少、松哥的倾情出演，尤其是龙少。

Pandas 还能这么玩儿？这样排序才叫真功夫！

不会爬，没数据？没关系！3分钟搞定1w+数据，超实用！

python爬虫人工智能大数据

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
惊了！大牛换了个思路，就让 Pandas 快了 1000x！

Pandas 百问百答第 010 篇。呆鸟云：书接上文《不会爬，没数据？没关系！3分钟搞定1w+数据，超实用！》。上文说道，老黄想生成 100 万条模拟数据，呆鸟先测试了一下 10 万...
复制链接

扫一扫