自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 pandas bug 系列——cannot reindex from a duplicate axis

今天在写groupby的时候,写了这样一个语句pbc3_avg=df_rfm.groupby('product_back_category_3')[['salePrice','yj1_v']].mean().reset_index()偶然出现了 cannot reindex from a duplicate axis 的bug,不过这个报错的信息直接理解起来是因为有重复的轴,但是在groupby中并没有设置轴,就算有也通过groupby去重了,而且第一遍时候我是运行成功过的。在CSDN上找了下基本都是

2021-12-16 17:07:48 3003

原创 数分工作基础系列——关于SQL取数的优化

最近业务调整,大部分的数据都调整为数据库的形式。并且接的是全量数据,所以对于只取某个业务线的数据时候,可能不是刚入行的小朋友们看了几句SQL写法就可以取数了。所以本篇来介绍下基础的一些优化。在只对一个表取数时候,进行条件筛选时候,可能会这样写:select a.main_order_no ,a.order_total_amount,a.member_phone,a.order_time,a.order_source ,b.goods_name ,b.order_quantity ,d.receive

2021-08-13 17:22:17 543

原创 pyecharts—桑基图(在用户等级变化上的应用)

好久没写,一是因为最近618太忙了(没时间摸鱼),二是基础知识到了一定阶段,很多小坑或者小方法都是比较常见,倒没什么能写得出手的东西了,实在不会就去翻原 API 看函数语法,虽然还是不能解决额问题,但大部分再结合数据尝试基本可以得到想要的了。所以后来有想记录每周数分岗位的做的一些事情,但是仅在脑中打了个草稿,实在没啥精力和时间记录下来。最近一段时间应该不会太忙了,先写个昨天做的东西,给大家参考下。618过完,客户想要看下活动前和活动后用户的成长值(用每个用户的累计金额进行换算)变化。首先从库里 g

2021-06-24 11:38:40 391

原创 Pandas库中关于DataFrame的坑3——df.loc

废话少说,直入主题df = pd.DataFrame({'name':['张三','李四','王二','麻子','杜甫'], 'mark':[120,111,135,150,151], 'gender':['male','female','female','male',np.nan]})#dfname mark gender0 张三 120 male1 李四 111 female2 王二 135 female3 麻子

2020-08-14 16:06:18 1177

原创 Python基础中的坑1—print(end=)

前两天在写代码时候,发现在连续打印的时候,会存在几个值中的间隔问题。比如:print('4','5')打印结果:4 5可以注意到,在连续打印几个值的时候,会自动打印出空格来分开。但是如果将打印结果分开在两个print函数的时候:print('1','2','3')print('4','5')打印结果:1 2 34 5两个打印函数中则是通过换行来分开,其中,end参数就是来定义两个打印函数之间用什么来分开(注意是两个print函数间,而不是一个函数中不同的打印值),print('1'

2020-08-06 14:58:24 872

原创 Pandas库中关于DataFrame的坑2——sort_values

大家在学习数据排序的时候,肯定都学过sort_values(注意有s),但是鉴于网络上的资源不同,有的讲的不够详细。对于sort_values的用法,只教了主流用法:df.sort_values('列名')就是根据‘列名’这一列的数据进行排序,有的还会讲ascending 参数,True 为升序,False 为降序。还有的讲得进阶一点的,会告诉你列名可以通过列表,来通过多列进行排序:df.sort_values(['列名1','列名2'],ascending=True)但是很多资料没有讲的一个比

2020-07-16 11:04:39 2395

原创 Pandas库中关于DataFrame的坑1——drop

关于DataFrame的学习教程以及主流函数,就不多赘述, 网络上已经有很多资源,如果有需要,这块内容学习完后,我可以把我的学习脑图分享出来,这里主要讲一下学习中的一些坑吧。数据的删除假设我们已经创建了了一个DataFrame表格为df1,import pandas as pdimport numpy as npdf1=pd.DataFrame(np.arange(1,10).reshape(3,3), index=['第一行','第二行','第三行'],

2020-07-15 12:02:57 658

原创 关于Python的文件读取

刚开始系统学习Python,在这里分享下学习中的一些经验,以及一些大多数教程不会提及到的细节。readline函数在学习Python时候,读取文件的其中一个方法就是ReadLine,在学习的时候,都会知道某个文件(假定文件名为filename)的 filename.readLine() 方法,如果括号内不带任何参数,则是读取一行的内容。此时要注意...

2020-04-23 10:34:57 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除