c语言二分法查找一个数_python数据处理,pandas也有Excel Vlookup 模糊查找功能

88d28d52-213f-4bc2-a199-4c80bc66275a

此系列文章收录在公众号中:数据大宇宙 > 数据处理 > E-pd

转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的)

经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas

前言

Excel 中的 vlookup 函数有一个模糊查找选项,其内在原理为二分法查找,在 pandas 中同样有一样功能的方法。


场景

如下某物资取货记录:

fe4d2c4b932845a1b9c89578a7113699
  • 左表为取货登记,有登记时间和数量
  • 右表为批次库存数量
  • 出库规则为按批次从小到大优先出库,也就是说,批次1被取完,才会取批次2,以此类推
  • 现在希望把左表每个人取货记录标记是哪个批次

问题类似匹配查找,是一种模糊匹配,比如 30 不是直接匹配 30 对应的记录,而是匹配到高于30最近的点(批次表的第一个点50)


f59291f0-98c3-4d07-bb68-9a3ec04d3b38

Excel解决方法

首先要知道每个人取货之前已经累计被拿了多少数量:

83bf656eb408467e9c5aa4b2f844a1c4
  • 通过简单的固定地址,直接使用 sum 函数即可
  • 第一行的记录比较特殊,这里简单处理,直接手工填充0(复杂处理就会sum公式变复杂一点)

同样道理,处理批次表:

bf19abe7578a41ac8ebda90199243317
  • 注意把公式写在表的左方,方便后续处理(别跟我说 vlookup 配合数组公式可以右往左匹配,非常讨厌无关逻辑嵌套一起的东西)

现在可以直接使用 vlookup 了:

0873a76ff38442f9ad8a124694b2ba62
  • 注意最后一个参数是1,模糊查找
  • 这里有个前提是,右表的数值列必须为升序,否则结果可能出乎意料

494ae3a4-87dd-4ffe-814a-360bb7dcbbf9

pandas解决方法

pandas 中的做法基本上每一句代码就对应 Excel 中的一个操作:

50e2f89090a84141b46e68c10c2c6602
  • 行1、2:加载数据,不多说
  • 行4、5:对2个表排序。这其实是很关键一步,上面 Excel 操作中省去了这2个操作
  • 行7、8:对应 Excel 中的求出"累计列"的操作
  • 行10:pd.cut 相当于模糊查找的 vlookup 。但是这方法比 vlookup 麻烦,每个区间的分割点必需比区间要多1个数量(这符合数据分段逻辑,但不方便数据表操作)
  • 所以在参数 bins 里面,我们特意添加一个比较大的数 1000 上去
  • 参数 right=False ,是让边界值归左边界处理。比如数量50,是属于批次1,而不是批次2

针对上述说的 pd.cut 的缺点,我们可以自定义一个函数,简化操作:

69e3359b79dd4c10ada31ec02af440fd
  • 把数据源(参数 x)的总和添加到分段点(参数 bins)中即可
  • 为了让其行为默认与 Excel vlookup 一致,把参数 right 默认值设置为 False

现在调用就清晰很多了:

5d6d5a826ddf47969e6ce25e2c986667

有没有想过直接往 pandas 库中添加一个属于自己的方法 vlookup 呢?真的可以做到,在我的 pandas 专栏后期将会详细讲解工程化扩展,想打造属于自己的 pandas 不是问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值