通过某个字段将记录分组 问题:
有一个字典火实例的序列,然后像根据某个特定的字段比如date来分组迭代访问。 解决方案:
itertools.groupby() 函数对于这样的数据分组操作非常实用。假设有下列的字典列表:
rows = [{'address': '5412 N CLARK', 'date': '07/01/2012'},
{'address': '5148 N CLARK', 'date': '07/04/2012'},
{'address': '5800 E 58TH', 'date': '07/02/2012'},
{'address': '2122 N CLARK', 'date': '07/03/2012'},
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address': '1060 W ADDISON', 'date': '07/02/2012'},
{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]
现在假设想在按date分组后的数据块上进行迭代。为了这样做,首先需要按照指定的字段排序,然后调用 itertools.groupby() 函数。
from operator import itemgetter
from itertools import groupby
rows.sort(key= itemgetter("date"))
for date, items in groupby(rows, key= itemgetter("date")):
print(date)
for i in items:
print(" ",i)
"""
运行结果:
07/01/2012
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
{'address': '5800 E 58TH', 'date': '07/02/2012'}
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
{'address': '1060 W ADDISON', 'date': '07/02/2012'}
07/03/2012
{'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
{'address': '5148 N CLARK', 'date': '07/04/2012'}
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}
"""
讨论: groupby() 函数扫描整个序列并且查找连续相同的值(或者根据指定 key 函数返回值相同)的元素 序列。在每次迭代的时候,它会返回一个值和一个迭代对象,这个迭代器对象可以生产元素值全部等于上面 那个值得组中所有对象。一个非常重要的准备步骤就是要根据指定的字段将数据排序。因为 groupby() 仅仅检查连续的元素,如果 事先没有排序完成的话,分组函数将得不到想要的结果。 如果仅仅想根据 date 字段将数据分组到一个大的数据结构中去,并且允许随机访问,那么最好使用defaultdict() 来构建一个多值字典。比如:
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
rows_by_date[row["date"]].append(row)
这样的话可以很轻松的就能堆每个特定日期访问对应的记录:
for r in rows_by_date["07/01/2012"]:
print(r)
"""
运行结果:
{'address': '5412 N CLARK', 'date': '07/01/2012'}
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}
"""
在上面的例子中,没有必要先将几率排序。因此,如果对内存占用不是很关心,这种方式会比先排序然后再 通过 groupby() 函数迭代的凡是运行的快一些。