![](https://img-blog.csdnimg.cn/2020070621274837.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
pandas
pandas 学习教程
SoWhat1412
微信搜索【SoWhat1412】,第一时间阅读原创干货文章。人之患、在好为人师、不实知、谨慎言。点点滴滴、皆是学问、看到了、学到了、便是收获、便是进步。
展开
-
Numpy 轻松学
1. Numpy 简介NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。底层是C语言编写出来然后嵌入到python中的。2. 矩阵在数学中,矩阵(Matrix)是一个按照长方阵列排列的复数或实数集合,一般情况下是(n,m) 表示原创 2020-07-12 20:09:13 · 8744 阅读 · 1 评论 -
1. 初识Pandas
1. 重要前言这段时间和一些做数据分析的同学闲聊,我发现数据分析技能入门阶段存在一个普遍性的问题,很多凭着兴趣入坑的同学,都能够很快熟悉Python基础语法,然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中,硬着头皮啃完之后,好像自己什么都会了一点,然而实际操作起来既不知从何操起,又漏洞百出。至于原因嘛,理解不够,实践不够是两条老牌的拦路虎,只能靠自己来克服。还有一个非常有意思且经常被忽视的因素——陷入举三反一的懵逼状态。什么意思呢?假如我是个旱鸭子,想去学游泳,教练很认真的给我剖原创 2020-07-06 15:41:36 · 818 阅读 · 2 评论 -
2. 灵活的Pandas索引
序言学习了Pandas的同学,有超过60%仍然投向了Excel的怀抱,之所以做此下策,多半是因为刚开始用Python处理数据时,选择想要的行和列实在太痛苦,完全没有Excel想要哪里点哪里的快感。初识Pandas 教程考虑到篇幅问题只讲了最基础的列向索引,但这显然不能满足同志们日益增长的个性化服务(选取)需求。为了舒缓痛感,增加快感,满足需求,第二篇内容我们单独把索引拎出来,结合场景详细介绍两种常用的索引方式:第一种是基于位置(整数)的索引,案例短平快,有个粗略的了解即可,实际中偶有用到,但它的应用范原创 2020-07-06 16:33:53 · 509 阅读 · 0 评论 -
3. 清洗常用4板斧
引言这是Python数据分析实战基础的第三篇内容,主要对前两篇进行补充,把实际数据清洗场景下常用但零散的方法,按增、删、查、分四板斧的逻辑进行归类,以减少记忆成本,提升学习和使用效率。数据集一级流量流量级别投放地区访客数支付转化率客单价支付金额一级A区44,30011.78%58.79306,887.83一级B区30,61213.85%86.64367,338.10一级C区18,3892.50%0.28129.58一级D区原创 2020-07-06 19:49:04 · 477 阅读 · 0 评论 -
4. 优雅的apply
引言本文主要讲的是Pandas中第二好用的函数——apply。为什么说第二好用呢?做人嘛,最重要的就是谦虚,做函数也是一样的,而apply就是这样一个优雅而谦虚的函数。我们单独用一篇来为apply树碑立传,原因有二,一是因为apply函数极其灵活高效,甚至是重新定义了pandas的灵活,一旦熟练运用,在数据清洗和分析界可谓是“屠龙在手,天下我有”二是apply概念相对晦涩,需要结合具体案例去咀嚼和实践。Apply初体验apply函数,因为她总是和分组函数一起出现,所以在江湖得了个·group原创 2020-07-06 20:32:00 · 549 阅读 · 0 评论 -
5. TGI指数分析实战
引言经常有一些专业的数据分析报告,会提到TGI指数,例如“基于某某TGI指数,我们发现某类用户更偏好XX”。对于不熟悉TGI定义的同学,看到类似的话一定是云山雾罩。这次,我们就来聊一聊什么是TGI指数以及怎么样结合案例数据实现简单的TGI偏好分析。对于TGI指数,百科是这样解释的——TGI指数,全称Target Group Index,可以反映目标群体在特定研究范围内强势或者弱势。很好,这个解释官方中透漏着专业,专业中弥漫着晦涩,晦涩的让人似懂非懂。粗暴翻译下来,TGI指数是反应偏好的一种指标。这样还原创 2020-07-06 21:26:28 · 1143 阅读 · 0 评论 -
6. 批量处理分析数据
需求:有20个品牌共生产了127个类目的产品,筛选出近一年销售额总额TOP5的品牌以及对应的销售额。思路:先做第一个然后如法炮制将结果汇总即可。数据信息如下:加载数据:接着,是要汇总不同品牌在这个细分行业下的销售额,我们要汇总的是各品牌近一年(2018年9月-2019年8月)的销售额,先看看日期是否正确:每个品牌每个月份销售额计算如下:按照品牌分组计算销售额总和前五的品牌:这里有个细节,最终要汇总的是所有细分行业的销售额top5,给所属类别添加标签。最终最终结果:import原创 2020-07-07 11:29:18 · 4381 阅读 · 0 评论 -
7. RFM用户分析模型
RFM,是一种经典到头皮发麻的用户分类、价值分析模型,同时,这个模型以直白著称,直白到把需要的字段写在了脸上:R:Rencency,即每个客户有多少天没回购了,可以理解为最近一次购买到现在隔了多少天。F:Frequency,是每个客户购买了多少次。M:Monetary,代表每个客户平均购买金额,这里也可以是累计购买金额。这三个维度,是RFM模型的精髓所在,帮助我们把混杂一体的客户数据分成标准的8类,然后根据每一类用户人数占比、金额贡献等不同的特征,进行人、货、场三重匹配的精细化运营。用Pyth原创 2020-07-07 16:53:23 · 1026 阅读 · 0 评论 -
8. 经典的同期群分析
理论回顾同期群分析是数据分析中一个hin经典的思维,核心是将用户按初始行为的发生时间,划分为不同的群组,进而分析相似群组的行为如何随时间变化而变化。一般是通过像这样的留存表来实现:每一行,代表当月新增客户,在接下来几个月的留存情况。通过横向对比,能够对客户留存和生命周期有初步的认识。基于纵向观察,可以发现不同期客户,留存情况的差异,以反推该期引入的客户是否精准。这个表看起来简单明晰,也有一些成熟的工具能够实现,但是,真要基于订单数据用Python来实现,还是要绞一番脑汁的。数据概览首先,导入订单原创 2020-07-07 19:30:27 · 927 阅读 · 0 评论