Python遍历pandas数据方法总结

最新推荐文章于 2024-08-14 18:22:26 发布

南馆潇湘 *

最新推荐文章于 2024-08-14 18:22:26 发布

阅读量2.1k

点赞数 1

分类专栏： python 文章标签： python 数据库

本文链接：https://blog.csdn.net/haoxun04/article/details/104242148

版权

本文总结了Python中Pandas数据结构遍历的几种方法，包括for...in循环、iterrows()生成器、apply()方法和矢量化操作。通过实例展示了如何对DataFrame的两列数据进行相除操作，并分析了不同方法的效率，指出NumPy arrays的矢量化速度最快，Pandas series次之，而循环方式最慢。

摘要由CSDN通过智能技术生成

前言
Pandas是python的一个数据分析包，提供了大量的快速便捷处理数据的函数和方法。其中Pandas定义了Series 和 DataFrame两种数据类型，这使数据操作变得更简单。Series 是一种一维的数据结构，类似于将列表数据值与索引值相结合。DataFrame 是一种二维的数据结构，接近于电子表格或者mysql数据库的形式。在这里插入图片描述
在数据分析中不可避免的涉及到对数据的遍历查询和处理，比如我们需要将dataframe两列数据两两相除，并将结果存储于一个新的列表中。本文通过该例程介绍对pandas数据遍历的几种方法。

for…in循环迭代方式
for语句是Python内置的迭代器工具，用于从可迭代容器对象（如列表、元组、字典、集合、文件等）中逐个读取元素，直到容器中没有更多元素为止，工具和对象之间只要遵循可迭代协议即可进行迭代操作。
具体的迭代的过程：可迭代对象通过__iter__方法返回迭代器，迭代器具有__next__方法，for循环不断地调用__next__方法，每次按序返回迭代器中的一个值，直到迭代到最后，没有更多元素时抛出异常StopIteration（python自动处理异常）。迭代的优点是无需把所有元素一次加载到内存中，可以在调用next方法时逐个返回元素，避免出现内存空间不够的情况。

>>> x = [1,2,3]
>>> its = x.__iter__() #列表是可迭代对象，否则会提示不是迭代对象
>>> its
<list_iterator object at 0x100f32198>
>>> next(its) # its包含此方法，说明its是迭代器
1
>>> next(its) 
2
>>>next(its) 
3
>>> next(its)</