多个模糊匹配条件下对两个数据集的高效聚合方法(加权最近邻优化)及实例代码
背景介绍:现在某一社交软件,收集各20W+的男女数据集df_T054包括:ID、性别、生日、身高系数、工资系数等信息[‘ID’,‘DataType’,‘CallRecordUEID’,‘Height’,‘Salary’]其中,身高系数、工资系数为male和female各自性别集合里统计出来的标准化数据,例如分位数等。(这样男间女比较身高,薪资才有意义)需求很简单,尽可能为female找到最满...
原创
2019-05-17 22:35:34 ·
1015 阅读 ·
7 评论