fff2zrx
这个作者很懒,什么都没留下…
展开
-
如何根据是否连续进行分组
现在需要将数据按照status连续与否,如上图中的id 1-2为1组,3-5为一组。关键点就在于判断间断点赋值 0 1然后累加即可利用sqlselect id,status,sum(flag) over (order by id) as 分组 --累加flagfrom ( select id,status,case when status=status2 then 0 else 1 end as flag --本行与上一行不相等,则为间断点 from ( selec.原创 2021-10-07 17:15:24 · 337 阅读 · 0 评论 -
pandas之groupby+带进度条的apply
from tqdm import tqdmtqdm.pandas(desc='pandas bar')outputs=case2.groupby(case2['ID']).progress_apply(lambda x:select_station(x))原创 2021-04-25 13:05:24 · 1327 阅读 · 1 评论 -
pandas中数据的复制
这篇主要是记一下pandas中的对象复制操作用=号复制可以看到data1跟data的id是一样的如果此时改变data1或者data1中的一个,两者会一起变化,如下图所示可以看到,修改data1后,data也同步发生了变化,所以= 是让新的变量指向旧变量的地址,两个变量指向同一内容,改变这个内容,这两个变量都会改变。当然直接重新赋值data1或者data一套新数据的话,python会认为是在创建新对象,二者就不会同步了用copy复制可以看到,用copy复制的话,新对象data.原创 2020-11-15 15:06:40 · 11941 阅读 · 1 评论 -
pandas学习(四):数据透视
此笔记是学习以下两篇文章以及其他用到过的个人总结pandas系列学习(七):数据透视表Pandas | 一文看懂透视表pivot_table最初学习excel时,大家都用过它的数据透视表功能,而pandas也可以做到这一点,这个函数就是pivot_tablepivot_table参数解释官方文档见pandas.pivot_tablepivot_table(data, values=None, index=None, columns=None,aggfunc=‘mean’, fill_val.原创 2020-08-25 16:05:23 · 431 阅读 · 0 评论 -
如何用pandas提取指定时间段的数据
处理数据时,经常用到的一个需求是:从全部数据中提取某个时间段内的数据order_data['start_time'] = pd.to_datetime(order_data['start_time'], format="%Y/%m/%d %H:%M:%S")如获取1月到4月份的数据order_data[order_data['start_time'].dt.month.isin(np.arange(1, 5))]如获取2020-01-02到2020-01-12的数据open_day='20.原创 2020-07-19 14:53:55 · 36936 阅读 · 11 评论 -
pandas的apply中的x到底是什么
使用pandas时经常会用到map,apply函数,一般是配合自己定义的匿名函数(lambda)或者函数使用,比较灵活方便。但是一般也没有深究函数中的那个x到底是什么,是一个数字或者字符,一行还是一列?现在我们来仔细看看到底是啥,明白了这个对我们使用apply的时候自定义函数十分有益首先自定义一个简单的Dataframeimport pandas as pddata=pd.DataFrame({"id":[1,3,5,7],"score":[61,63,65,67]})情况1: 对某一列.原创 2020-07-18 14:31:48 · 1136 阅读 · 1 评论 -
pandas的100个tricks
最近发现kaggle上一位pandas大神总结的100个tricks,觉得有些很有用,节选了整理一些,记录于此原地址点击文章目录Trick 1: 打印出 pandas的版本和它的依赖Trick 2: 使用pandas内置的npTrick 3: 一行查看数据总体情况Trick 4: pd.read_csv()的很有用的参数加载大文件的样例数据读取指定列和指定列数据类型用header和skiprow...翻译 2020-04-30 23:58:39 · 615 阅读 · 0 评论 -
pandas的100个tricks(精细版)
最近发现kaggle上一位pandas大神总结的100个tricks,觉得有些很有用,https://www.kaggle.com/python10pm/pandas-100-tricks文章目录Trick 1: 一行查看数据总体情况Trick 2: pd.read_csv()中有用的参数加载大文件的样例数据读取指定列和指定列数据类型Trick 3: datetime对象可用接口Trick ...翻译 2020-04-30 23:52:26 · 469 阅读 · 0 评论 -
pandas之resample踩坑
之前强烈安利的pandas函数resample最近坑我不浅,记录下来一言以蔽之:它娘的会自动补全中间缺的日期背景是这样:我想按下雨工作日和周末,不下雨工作日和周末,统计按15min集计订单时变量,然后绘制这种图于是筛选好四部分数据后,依次放入下面代码所示函数中进行集计resample_data=order_data.resample('15T',on='start_time').agg...原创 2020-04-22 16:46:26 · 2898 阅读 · 0 评论 -
pandas之上下行运算
有时候我们需要判断相邻两行关系,比如想去除掉相邻两行某个字段相同的数据行。比如我们可以写一个循环,判断每一行与上一行的关系但是pandas已经有了现成的函数供我们使用diff函数pandas.Series.diffCalculates the difference of a Series element compared with another element in the Ser...原创 2020-04-17 22:56:56 · 6899 阅读 · 0 评论 -
pandas之多行按类合并为一行
前言前面讲到explode操作是把某一列中的嵌套列表拆分为多行那有时候我们会有着相反的需求,即按照某一列,把相同值对应的多行合并成一行原理主要用到groupby函数+apply函数读取数据data=pd.read_csv('data.csv',header=None)data.columns=['car_id','time','lon','lat']2. 多列合并为一列...原创 2020-04-05 20:43:28 · 16767 阅读 · 4 评论 -
pandas之explode、resample
今天记一下处理数据中发现的pandas的好功能1、explode ->拆分数据为多行我们遇到的车辆轨迹数据是这样的,第一列是车辆的id,第二列是该车辆的轨迹信息,包括时间,经度,纬度我们现在想做的是将最后一列按照第一列car_id拆分为多行,即下图所示 ,这样才方便进行后续处理最早我是拿循环加嵌套列表完成转换的,后来发现pandas有explode这个函数,简单来说,...原创 2020-03-25 21:50:34 · 1385 阅读 · 0 评论 -
pandas学习(三):数据拼接、数据合并和数据聚合
在这里总结一下pandas的数据处理,方便自己使用(粘贴)主要包括数据清洗,数据提取,数据连接,数据聚合四个方面原创 2020-02-18 18:18:55 · 2967 阅读 · 0 评论 -
pandas学习(二):常用方法笔记
1.如何利用现有数据构建dataframe格式数据符合上图中的数据均可通过pd.DataFrame函数转换成dataframe数据格式如raw_data是列表组成的列表:raw_data=json.load(open('python_search','r+',encoding='utf-8'))data=pd.DataFrame(raw_data,columns=['compa...原创 2019-10-02 14:48:05 · 531 阅读 · 1 评论 -
pandas学习(一):pandas基础
本文是学习博客pandas系列学习(三):DataFrame过程中的笔记,博主写的很详细推荐先看他的这两篇:pandas系列学习(一):pandas入门 pandas系列学习(二):Series1.数据类型pandas中数据类型主要有两类:Series和DataFrame,Series是单列数据,DataFram...原创 2019-08-22 14:30:07 · 284 阅读 · 0 评论