pandas 排序_你不知道的Pandas三大功能，替代Excel排序分分钟-CSDN博客

本文链接：https://blog.csdn.net/weixin_39559097/article/details/111287717

?之前写过很多关于Pandas的文章，Pandas是一个用于数据分析和数据可视化的神奇库。

前面文章介绍的都是一些经常会用到的函数，这些函数可以让你效率更高，不会让你重新发明轮子。

那么，在今天的文章中，?君想把重点转移到几个更有用的排序筛选功能上，这些功能曾让我觉得自己就是个彻头彻尾的白痴。

为什么会这样想？

好吧，我承认我写代码的时候很少上网搜索，所以在此之前我也并不知道这些函数的存在。

我花了几小时，熬白了头，终于把老板的需求给实现了，但代价是花了几个小时，996变成997。

为了避免同样的事情发生在你身上，请继续阅读。

idxmin() and idxmax()

老板给了你一堆乱七八糟的数据，你对商品的所有差评做了个统计，知道关于不好吃这个差评最多是98个，你想通过索引调取这个数据，怎么获取这个索引值？下面是方法。

简而言之，这两个函数返回的是所需条目的ID(索引位置)。

如下，我创建了以下的Pandas Series

如果我想找到最小和最大项目的索引位置。

在这里，看着并不难，只要一眼就能看到，但如果这个数据是15个G的数据，百万级别的条目，相信这两个方法的作用就出来了。

你要利用idxmin()和idxmax()函数的威力来处理大数据，让我们来看看怎么做。

关键是要记住，函数将返回最小/最大值的第一次出现的索引。

ne()

这个对我来说是一个很大的启示。前段时间我在工作中处理一堆交通违章数据，遇到了前n个没有违章记录，但我想知道n次违章记录之后的第一次违章问题。

用大白话再说一遍吧，想一想你可能买了一件东西，但在一段时间内没有使用它。最近你对这个东西重新感兴趣，那么它在哪呢？

所以ne()这个函数就会在关键时刻救你一命，结合上面函数就能快速定位你遗忘的东西。

让我们考虑一下下面的情况。你有一个Pandas DataFrame对象，其中有一些观测值在开始时是0。

现在ne()要做的是，如果当前值不是你指定的值(比如说0)，则返回True，否则返回False。

这个本身并没有什么用。你还记得我说过，你需要知道idxmax()才能理解这个的意义吗？你可以把idxmax()和上面的代码链起来。

所以在指数位置6，我们有了第一个非零观测值，我们可以利用这些信息对DataFrame进行子集，只显示从项目第一次使用时开始的值。

这在当你要处理时间序列数据的时候，就会非常便捷方便。

我猜你从名字上就能得出这两个函数的作用。比方说，我创建了以下DataFrame对象：

df = pd.DataFrame({'Name':['张三','李四','王二麻子','刘老五','傻白甜'],     'Points':[55,98,46,77,81]     })

df

Name  Points张三     55李四     98王二麻子  46刘老五   77傻白甜   81

假如我想知道哪三个同学表现最差，怎么办呢？

df.nsmallest(3,'Points')Name    Points王二麻子   46张三      55刘老五    77

或哪3名学生表现最好。

df.nlargest(3,'Points')Name    Points李四      98傻白甜    81刘老五    77

这两个函数是一个很好的排序筛选的替代函数，比如sort_values()。

我是?君，我会在接下来的时间里介绍很多pandas省时省力的功能，让我们一起学习进步吧。请在后台留言分享你最想用Pandas做的事。

感谢你的阅读。