pandas 与 pandasql 统计客户数去重

cy^2

已于 2022-03-15 16:25:11 修改

阅读量3.6k

点赞数 2

分类专栏： pandas 小技巧文章标签： python 数据分析金融

于 2022-03-15 14:03:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34120015/article/details/123499549

版权

pandas 小技巧专栏收录该内容

8 篇文章 0 订阅

订阅专栏

import numpy as np
import pandas as pd
from pandasql import sqldf
import datetime

# 全局定义
pysqldf = lambda q: sqldf(q, globals())

#构建数据集
df = pd.DataFrame({"issue_date":["2021-1-31","2021-2-28","2021-3-31","2021-4-30","2021-5-31","2021-6-30","2021-7-31","2021-8-31","2021-9-30","2021-10-31","2021-11-30","2021-12-31"], 
                   "uid":["a1","a2","a1","a3","a4","a3","a5","a3","a4","a2","a4","a2"],
                   "issue_amount":[50,30,20,13,23,34,50,49,40,10,19,78]}
                 )

df['issue_date'] = df['issue_date'].astype('datetime64')

场景一：统一不同发放日期下，发放金额汇总和发放客户数去重，并分别按照asc、desc排序

# pysql处理逻辑

q = """
select 
issue_date
,sum(issue_amount) 
,count(distinct uid)
from df 
group by issue_date
order by sum(issue_amount) asc,count(distinct uid) desc;
"""
pysqldf(q)

# pandas处理逻辑

df_r = df.groupby(['issue_date']).agg({'uid' : lambda x: x.nunique(),'issue_amount' : np.sum})
df_r.rename(columns={'uid':'uid_num','issue_amount':'issue_amount_total'},inplace=True)
df_r.sort_values(by=['uid_num','issue_amount_total'],ascending=[True,False])

未完

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas 与 pandasql 统计客户数去重

import pandas as pdimport numpy as npfrom pandasql import sqldfimport datetime
复制链接

扫一扫

专栏目录

cy^2 CSDN认证博客专家 CSDN认证企业博客

码龄8年

60: 原创

40万+: 周排名

82万+: 总排名

14万+: 访问

: 等级

737: 积分

18: 粉丝

86: 获赞

9: 评论

527: 收藏

私信

关注

热门文章

分类专栏

最新评论

4、特征选择(filter)：卡方检验特征筛选
赛可乐: 对于连续变量与离散变量的分析很有帮助，谢谢
4、特征选择(filter)：卡方检验特征筛选
火桑依旧: 0类标签0.7，1类标签0.3，结果0类特征行数55行，1类特征行数45行，你真是给我逗笑了
特征变换：特征归一化（Normalization）作用以及方法 Min-Max、Z-Score
求求你们别复制粘贴了: 一个错误：零均值归一化，要求经过处理的数据符合标准正态分布，这句话是错误的。1.减去均值除以标准差，只能是得到均值是0，方差是1的分布，但不是正态分布。2.任何一堆数据都可以进行如上操作，这些操作并不会对原数据的分布构成影响，（只不过是平移+缩放）其次，挺反感这些命名的。minmax得到的是[0,1]的数据，叫归一化没问题，零均值只是得到了均值为0方差为1，数据值照样可以不落在【-1，1】凭啥叫归一化？还有一种除以范数的保证的是各维度1范数和2范数的和是1，人家叫作标准化叫做归一化不也可以么？英文都叫做normalization，国人硬生生自己把一个单词分为归一、标准、单位化，自己给自己找罪受。要我说，这些操作都叫做标准化操作，只不过是最后得到的结果是不同的标准
5、特征选择(filter)：方差分析(ANOVA)
weixin_45048015: 卡方检验改成方差分析
presto架构和概念介绍
Xd聊架构: 来互动吧，帮我点赞最新的一篇文章，谢谢！！！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。