DataFrame是一个比较重量级的数据结构,当我们对一个比较大的DataFrame进行多次重复性访问时,效率是很低的。比如,如果我们需要对一个DataFrame逐行进行一个相对复杂一点的操作,尽管可以使用相对高效的apply进行逐行遍历,但是如果我们对每行的操作需要同时用到其他行时,如果是直接对DataFrame进行操作,这时就避免不了对DataFrame进行索引操作,而实际上对DataFrame的索引操作是一种低效的行为,特别是DataFrame较大的时候,对此,我们可以采取下列方式来提高效率:
1、避免直接在大的DataFrame上直接索引,可以先一次性提取出需要行或列,然后再在相对更小的DataFrame上进行索引操作;
2、进一步的,可以把DataFrame转换为字典,直接用DataFrame的to_dict方法即可实现快速转换,然后再在字典上进行必要的索引操作,这是因为python原生数据结构中,对于成员访问操作,字典是相对最高效的一种数据结构,因此当我们将DataFrame转换为字典后,再进行数据访问,可以极大的提升效率,特别是当DataFrame较大的时候,这种效率提升效果将会非常明显。