- 博客(8)
- 收藏
- 关注
原创 pandas bug 系列——cannot reindex from a duplicate axis
今天在写groupby的时候,写了这样一个语句pbc3_avg=df_rfm.groupby('product_back_category_3')[['salePrice','yj1_v']].mean().reset_index()偶然出现了 cannot reindex from a duplicate axis 的bug,不过这个报错的信息直接理解起来是因为有重复的轴,但是在groupby中并没有设置轴,就算有也通过groupby去重了,而且第一遍时候我是运行成功过的。在CSDN上找了下基本都是
2021-12-16 17:07:48 3003
原创 数分工作基础系列——关于SQL取数的优化
最近业务调整,大部分的数据都调整为数据库的形式。并且接的是全量数据,所以对于只取某个业务线的数据时候,可能不是刚入行的小朋友们看了几句SQL写法就可以取数了。所以本篇来介绍下基础的一些优化。在只对一个表取数时候,进行条件筛选时候,可能会这样写:select a.main_order_no ,a.order_total_amount,a.member_phone,a.order_time,a.order_source ,b.goods_name ,b.order_quantity ,d.receive
2021-08-13 17:22:17 543
原创 pyecharts—桑基图(在用户等级变化上的应用)
好久没写,一是因为最近618太忙了(没时间摸鱼),二是基础知识到了一定阶段,很多小坑或者小方法都是比较常见,倒没什么能写得出手的东西了,实在不会就去翻原 API 看函数语法,虽然还是不能解决额问题,但大部分再结合数据尝试基本可以得到想要的了。所以后来有想记录每周数分岗位的做的一些事情,但是仅在脑中打了个草稿,实在没啥精力和时间记录下来。最近一段时间应该不会太忙了,先写个昨天做的东西,给大家参考下。618过完,客户想要看下活动前和活动后用户的成长值(用每个用户的累计金额进行换算)变化。首先从库里 g
2021-06-24 11:38:40 391
原创 Pandas库中关于DataFrame的坑3——df.loc
废话少说,直入主题df = pd.DataFrame({'name':['张三','李四','王二','麻子','杜甫'], 'mark':[120,111,135,150,151], 'gender':['male','female','female','male',np.nan]})#dfname mark gender0 张三 120 male1 李四 111 female2 王二 135 female3 麻子
2020-08-14 16:06:18 1177
原创 Python基础中的坑1—print(end=)
前两天在写代码时候,发现在连续打印的时候,会存在几个值中的间隔问题。比如:print('4','5')打印结果:4 5可以注意到,在连续打印几个值的时候,会自动打印出空格来分开。但是如果将打印结果分开在两个print函数的时候:print('1','2','3')print('4','5')打印结果:1 2 34 5两个打印函数中则是通过换行来分开,其中,end参数就是来定义两个打印函数之间用什么来分开(注意是两个print函数间,而不是一个函数中不同的打印值),print('1'
2020-08-06 14:58:24 872
原创 Pandas库中关于DataFrame的坑2——sort_values
大家在学习数据排序的时候,肯定都学过sort_values(注意有s),但是鉴于网络上的资源不同,有的讲的不够详细。对于sort_values的用法,只教了主流用法:df.sort_values('列名')就是根据‘列名’这一列的数据进行排序,有的还会讲ascending 参数,True 为升序,False 为降序。还有的讲得进阶一点的,会告诉你列名可以通过列表,来通过多列进行排序:df.sort_values(['列名1','列名2'],ascending=True)但是很多资料没有讲的一个比
2020-07-16 11:04:39 2395
原创 Pandas库中关于DataFrame的坑1——drop
关于DataFrame的学习教程以及主流函数,就不多赘述, 网络上已经有很多资源,如果有需要,这块内容学习完后,我可以把我的学习脑图分享出来,这里主要讲一下学习中的一些坑吧。数据的删除假设我们已经创建了了一个DataFrame表格为df1,import pandas as pdimport numpy as npdf1=pd.DataFrame(np.arange(1,10).reshape(3,3), index=['第一行','第二行','第三行'],
2020-07-15 12:02:57 658
原创 关于Python的文件读取
刚开始系统学习Python,在这里分享下学习中的一些经验,以及一些大多数教程不会提及到的细节。readline函数在学习Python时候,读取文件的其中一个方法就是ReadLine,在学习的时候,都会知道某个文件(假定文件名为filename)的 filename.readLine() 方法,如果括号内不带任何参数,则是读取一行的内容。此时要注意...
2020-04-23 10:34:57 187
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人