1.15通过某个字段将记录分组

最新推荐文章于 2024-04-29 10:52:32 发布

yepeng0914

最新推荐文章于 2024-04-29 10:52:32 发布

阅读量252

点赞数

分类专栏： python3高级教程

本文链接：https://blog.csdn.net/Tangerine02/article/details/123042329

版权

python

python3高级教程专栏收录该内容

56 篇文章 2 订阅

订阅专栏

问题

你有一个字典或者实例的序列，然后你想根据某个特定的字段比如date来分组迭代访问。

解决方案

itertools.groupby()函数对于这样的数据分组操作非常适用。为了演示，假设及已经有了下列的字典列表：

rows =[{'address': '5412 N CLARK', 'date': '07/01/2012'},
 {'address': '5148 N CLARK', 'date': '07/04/2012'},
 {'address': '5800E 58TH', 'date': '07/02/2012'},
 {'address': '2122 N CLARK', 'date': '07/03/2012'},
 {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
 {'address': '1060 WADDISON', 'date': '07/02/2012'},
 {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
 {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}]

现在假设你想在按date分组后的数据块上进行迭代。为了这样做，你首先需要按照指定的字段（这里即使date）排序，然后调用itertools.groupby（）函数：

from itertools import groupby
from operator import itemgetter

rows.sort(key=itemgetter('date'))
for date, items in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print('', i)
'''运行结果
07/01/2012
 {'address': '5412 N CLARK', 'date': '07/01/2012'}
 {'address': '4801 N BROADWAY', 'date': '07/01/2012'}
07/02/2012
 {'address': '5800E 58TH', 'date': '07/02/2012'}
 {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}
 {'address': '1060 WADDISON', 'date': '07/02/2012'}
07/03/2012
 {'address': '2122 N CLARK', 'date': '07/03/2012'}
07/04/2012
 {'address': '5148 N CLARK', 'date': '07/04/2012'}
 {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}

'''

讨论

groupby（）函数扫描整个序列并且查找连续相同的值（或者根据指定的key函数返回值相同）的元素序列。在每次迭代的时候，它会返回一个值和一个迭代器对象，这个迭代器对象可以生成元素全部等于上面那个值的组中所有对象。

一个非常重要的准备步骤四要根据指定的字段将数据排序。以为groupby（）仅仅检查连续的元素，那么你最好使用defaultdict（）来构建一个多值字典，关于多值字典已经在1.6小结详细介绍。比如：

from collections import defaultdict
rows_by_date=defaultdict(list)
for row in rows:
    rows_by_date[row['date']].append(row)
print(rows_by_date)
'''
defaultdict(<class 'list'>, {'07/01/2012': [{'address': '5412 N CLARK', 'date': '07/01/2012'}, {'address': '4801 N BROADWAY', 'date': '07/01/2012'}], '07/02/2012': [{'address': '5800E 58TH', 'date': '07/02/2012'}, {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}, {'address': '1060 WADDISON', 'date': '07/02/2012'}], '07/03/2012': [{'address': '2122 N CLARK', 'date': '07/03/2012'}], '07/04/2012': [{'address': '5148 N CLARK', 'date': '07/04/2012'}, {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}]})

'''

这样的话你可以很轻松的就能对每个指定的日期访问对应的记录：

for r in rows_by_date['07/01/2012']:
    print(r)
    '''
    {'address': '5412 N CLARK', 'date': '07/01/2012'}
	{'address': '4801 N BROADWAY', 'date': '07/01/2012'}

    '''

上面的这个列子中，我们没有必要先将记录排序。因此，如果你对内存占用不是很关心，这种方式会比先排序然后再通过groupby（）函数迭代的方式运行的快一些。

yepeng0914

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.15通过某个字段将记录分组

问题你有一个字典或者实例的序列，然后你想根据某个特定的字段比如date来分组迭代访问。解决方案 itertools.groupby()函数对于这样的数据分组操作非常适用。为了演示，假设及已经有了下列的字典列表：rows =[{'address': '5412 N CLARK', 'date': '07/01/2012'}, {'address': '5148 N CLARK', 'date': '07/04/2012'}, {'address': '5800E 58TH', 'date
复制链接

扫一扫

专栏目录