python怎么提取数据表中的前10行成为一个新的数据框_python – 从Pandas数据框中获取最后一个条目的最佳方法...

黄海广

于 2021-02-20 22:51:47 发布

阅读量720

点赞数

文章标签： python怎么提取数据表中的前10行成为一个新的数据框

本文链接：https://blog.csdn.net/weixin_29221753/article/details/114429474

版权

解决此问题的另一种方法是在groupby上使用聚合,然后在完整数据帧上进行选择.

df.iloc[df.groupby('id')['date'].idxmax()]

这似乎比您提出的解决方案快5-10倍(见下文).请注意,这仅在’date’列是数字而不是字符串类型时才有效,并且此转换还可以加快基于排序的解决方案：

# Timing your original solutions:

%timeit df.groupby('id').apply(lambda t: t[t.date==t.date.max()])

# 1 loops, best of 3: 826 ms per loop

%timeit df.reindex(df.sort_values(["date"], ascending=False)["id"].drop_duplicates().index)

# 100 loops, best of 3: 5.1 ms per loop

# convert the date

df['date'] = pd.to_datetime(df['date'])

# new times on your solutions

%timeit df.groupby('id').apply(lambda t: t[t.date==t.date.max()])

# 1 loops, best of 3: 815 ms per loop

%timeit df.reindex(df.sort_values(["date"], ascending=False)["id"].drop_duplicates().index)

# 1000 loops, best of 3: 1.99 ms per loop

# my aggregation solution

%timeit df.iloc[df.groupby('id')['date'].idxmax()]

# 10 loops, best of 3: 135 ms per loop

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

黄海广

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python读取数据集前十行,python – 用于读取行的最佳HDF5数据集块形状

weixin_39791225的博客

03-26

642

我有一个合理的大小(18GB压缩)HDF5数据集,我希望优化读取行的速度.形状是(639038,10000).我将在数据集中多次读取选择的行(比如说〜1000行).所以我不能使用x：(x 1000)来切片行.使用h5py从内存不足的HDF5中读取行已经很慢了,因为我必须传递一个已排序的列表并采用花哨的索引.有没有办法避免花哨的索引,或者我可以使用更好的块形状/大小？我已经阅读了经验法则,例如1...

python怎么提取数据表中的前10行成为一个新的数据框_Python-将数据框内的数据取出到另一个单元中...

weixin_30844407的博客

12-23

1075

This is the data in single cell of dataframe with 14 columns. Cell is the element of column. There are 45k+ this kind of cells, to do it manually is a hell.I'd like to do with this cell 3 things:move ...

参与评论您还未登录，请先登录后发表或查看评论

利用Python+Pandas实现从一个excel表中提取列形成新表

qq_39541326的博客

07-09

2万+

**简要** 利用python实现把一个工作表中的某些列，和其中单独的一列，提取成为一个个新表。如图（处理前）蓝色部分是需要保留的列，红色是需要一项一项分出来作为单独表格的列。其中，第一行的名字是用的回车作为分隔，所以在提取名字时需要去除\n。整体思路就是先保留前六列，然后加上后面的每一列，每加一列的同事加一个单独的sheets，最后获取第一行每一列的名字，将sheets进行命名。 ...

python读取数据集前十行_用于读取行的最佳HDF5数据集块形状

weixin_39726267的博客

11-28

188

查找正确的块缓存大小一开始我不想讨论一些一般的事情。重要的是要知道，每个单独的块只能作为一个整体来读或写。h5py的标准块缓存大小可以避免过多的磁盘I/o，每个默认值只有1 MB，在许多情况下应该增加，这将在后面讨论。在例如：我们有一个形状为（63903810000）、float32（25,5gb未压缩）的数据集我们不需要按dset[:,i]=arr编写数据列，而按行读取arr=dset[i,:]...

python怎么提取数据表中的前10行成为一个新的数据框_python-如何使用来自另一个数据框的新值更......

weixin_31107269的博客

12-23

1364

我有两个Spark数据框：数据框A：|col_1 | col_2 | ... | col_n ||val_1 | val_2 | ... | val_n |和数据框B：|col_1 | col_2 | ... | col_m ||val_1 | val_2 | ... | val_m |数据框B可以包含来自数据框A的重复行,更新行和新行.我想在spark中编写操作,在其中可以创建一个新数据框,其中...

python怎么提取数据表中的前10行成为一个新的数据框_如何用R语言在数据中提取指定列数据，并且形成一个新的数据表？...

weixin_36340926的博客

12-23

2187

最简单的方法，数据框的名称，加上你要提取的列数，示例如下：需要注意的是，如果只提取单列的话，得到的数据就变成了一个vector，而不再是dataframe的格式了。首先，导入R语言需要加载xlsx包，没有安装这个包的，请用下面的代码进行在线安装：install.packages("xlsx")选择China的任意一个镜像站点，它会自动安装其他所需的依赖包。安装好xlsx包后，接下来导入存放在“C:...

python apply函数取数据中的后四位_python – 从Pandas数据框中获取最后一个条目的最佳方法...

weixin_39769183的博客

12-22

580

我最近必须获得某些项目的最后设置状态,标记为ID.我找到了这个答案： Python : How can I get Rows which have the max value of the group to which they belong?令我惊讶的是,只有~2e6行的数据集相当慢.但是我不需要获得所有最大值,只需要最后一个.import numpy as npimport pandas as...

python里数据框拆分_python – 在Pandas DataFrame中分割列表

weixin_35655990的博客

02-04

1979

如果你想留在纯大熊猫,你可以扔一个棘手的小组,并应用哪个最终沸腾到一个班轮,如果你不计算列重命名.In [1]: import pandas as pdIn [2]: d = {'date': ['4/1/11','4/2/11'],'ts': [[pd.Timestamp('2012-02-29 00:00:00'),pd.Timestamp('2012-03-31 00:00:00'),pd....

python两个表格相同数据筛选的方法_浅谈pandas筛选出表中满足另一个表所有条件的数据方法...

weixin_39673601的博客

12-17

2412

今天记录一下pandas筛选出一个表中满足另一个表中所有条件的数据。例如：list1 结构：名字，ID，颜色，数量，类型。list1 = [['a',1,255,100,'03'],['a',2,481,50,'06'],['a',47,255,500,'03']，['b',3,1,50,'11']]list2结构：名字，类型,颜色。list2 = [['a','03',255],['a','06...

python数据框添加一列无列名_如何使用Python中已经存在的列将新列创建到数据框？...

weixin_39709674的博客

12-30

580

数据框是一种二维数据结构，其中数据以表格格式存储，以行和列的形式。它可以可视化为SQL数据表或excel工作表表示形式。可以使用以下构造函数创建它-pd.Dataframe(data,index,columns,dtype,copy)我们之前看到了一种方法，其中将新列创建为Series数据结构。这被索引到原始数据帧，因此被添加到数据帧。让我们使用如何使用数据框已存在的列创建列。当我们需要对...

pandas通过loc生成新的列方法

01-20

pandas中一个很便捷的使用方法通过loc、iloc、ix等索引方式，这里记录一下： df.loc[条件,新增列] = 赋初始值如果新增列名为已有列名，则在原来的数据列上改变 import pandas as pd import numpy as np data = pd.DataFrame(np.random.randint(0,100,40).reshape(10,4),columns=list('abcd')) print(data) data.loc[data.d >= 50,'大于50'] = 'Yes' print(data) 通过使用loc进行索引，在索引中做判断，然后根

pandas数据框,统计某列数据对应的个数方法

09-20

从给定的文件中提取的知识点主要涉及使用Python的pandas库以及numpy库处理数据，并针对特定问题提出解决方案。下面将详细解释这一过程。首先，pandas是一个强大的Python数据分析工具库，它提供了许多功能，可以...

python读取列表前10_如何在python中对大量列表进行排序以获得前10名？

weixin_34530164的博客

02-04

1865

我有一个.txt文件，里面有很多这样的结构。在["saelyth", 17896, 96511, 4733, "0", "F00", "0", 11, 1, "ffg, ghks"]["example", 765, 3873, 342, "000", "F63", "5", 15, 1, "ffg"]["whatever", 158, 756, 36, "000", "000", "0", 13,...

python怎么提取数据表中的前10行成为一个新的数据框_Python：从列表中创建一个pandas数据框...

weixin_30509193的博客

02-10

972

我使用以下代码从列表中创建数据框：test_list = ['a','b','c','d']df_test = pd.DataFrame.from_records(test_list, columns=['my_letters'])df_test上面的代码工作正常。然后我尝试了另一个列表的相同方法：import pandas as pdq_list = ['112354401', '1161155...

python显示前几行数据_python – 为数据框中的每一行查找前N列

weixin_39906521的博客

11-30

559

如果你只想要配对：from operator import itemgetter as itfrom itertools import repeatn = 3# sort_values = order pandas < 0.17new_d = (zip(repeat(row["index"]), map(it(0),(row[1:].sort_values(ascending=0)[:n].ite...

循环+查询前10行

laodao1的专栏

10-22

472

循环+查询前10行

用Python获取文件的后几行

henye007的博客

09-01

6123

用Python获取文件的后几行程序的跑批日志有时候累加的多了会特别的大，如果我们只需要获取文件的后几行的话，就不需要依次遍历。读取文件获取最后几行 with open(r'文件路径', 'r' ) as f: txt = f.readlines() keys = [k for k in range(0, len(txt))] result = {k: v for k, v in zip(keys, txt[::-1])} for i in range(7):

python操作excel_关于Python自动化操作Excel的36个Python函数【面试必学】

weixin_39721807的博客

11-11

454

从Excel到Python：最常用的36个Pandas函数关于Excel，你一定用的到的36个Python函数python本文涉及pandas最常用的36个函数，通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理，以及最常见的数据分类，数据筛选，分类汇总，透视等最常见的操作。另外#在学习Python的过程中，往往因为没有好的教程或者没人指导从而导致自己容易放弃，为此我建了个Python交流....

Python pandas，DataFrame切片，DataFrame取行取列，loc()，iloc()