【python】使用numpy实现group by操作

最新推荐文章于 2025-03-03 22:23:36 发布

phase11

最新推荐文章于 2025-03-03 22:23:36 发布

阅读量9.1k

点赞数 6

分类专栏： python 文章标签： python 推荐系统

本文链接：https://blog.csdn.net/u012908433/article/details/116210658

版权

本文介绍了在处理大规模数据时，如何利用numpy库来实现类似pandas group by的功能，特别是针对千万级数据的Top1推荐场景。内容包括问题描述和具体实现代码，通过这种方法优化了推荐系统的用户物品分值计算和推送名单的生成过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas下的group by操作速度慢，在百万级数据量下可以使用PyFunctional下的group by，千万级速度又吃不消了，可以借助numpy，但实现有点麻烦，记录一下。

一、问题描述
【推荐场景】输入二维数组a，千万行，3列，第一列是用户id，第二列是物品id，第三列是分值。先计算每个用户下分值最高的物品（Top1推荐），然后按照物品将这些用户组合起来（推送名单）。

二、实现代码

a = a[a[:, 0].argsort()]  # 按照user_id排序（排序是使用np.split进行分组的前提）
a = np.spl

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

phase11

关注关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python数据分析NumPy和pandas（三十三、Group变换和解锁GroupBy）

FreedomLeo1的博客

11-15

520

在这里，我们在 GroupBy 操作的多个输出之间进行算术运算，而没有编写一个函数并将其传递给 groupby(...).apply()。这就是 “unwrapped” 的含义。与 apply 一样，transform 适用于返回 Series 的函数，但结果必须与输入对象的大小相同。g.transform('mean') 输出结果与 g.transform(get_mean) 相同。先用自定义函数 get_mean()计算每组的平均值，然后用每组的平均值替换每组的元素值。

Python数据分析NumPy和pandas（三十一、数据聚合）

FreedomLeo1的博客

11-13

1253

聚合是指从数组生成标量值的数据转换。常见的聚合见下图列表，但是，不仅限于列表中的这组方法。通过使用 DataFrame，我们可以指定要应用于所有列的函数列表或每个列的不同函数。在到目前为止的所有示例中，聚合数据都返回了一个索引，该索引可能是分层的，由唯一的组键组合而成。当然，通过对结果调用 reset_index 方法也可以实现去除索引，但是会需要一些计算，因此在分组的时候使用 as_index=False 参数可避免一些不必要的计算。可以使用自己的设计的聚合方法，也可以调用分组的对象上定义的任何方法。

2 条评论您还未登录，请先登录后发表或查看评论

利用Pandas和Numpy按时间戳将数据以Groupby方式分组

太玄经的博客

07-16

1万+

首先说一下需求，我需要将数据以分钟为单位进行分组，然后每一分钟内的数据作为一行输出，因为不同时间的数据量不一样，所以所有数据按照最长的那组数据为准，不足的数据以各自的最后一个数据进行补足。之后要介绍一下我的数据源，之前没用的数据列已经去除，我只留下要用到的数据data列和时间戳time列，时间戳是以秒计的，可以看到一共是407454行。 da...

Numpy实现GroupBy

rilkran的博客

05-22

2140

# -*- coding: utf-8 -*- import numpy as np def groupby(arr, num, *function): tmp = arr[:,np.argsort(arr[num,:])] ll = [] for i in range(len(arr)): ll.append(np.split(tmp[i,:], np.unique(tmp[num,:], return_index=True)[1])[1:]) new = np.stack(ll, a.

Pandas怎样实现groupby 分组统计

最新发布

m0_56276607的博客

03-03

486

2. 多个列groupby,查询所有数据列的统计。('A','B')成对变成了二级索引。group by :先对数据分组，然后在每个分组上应用聚合函数，转换函数。1，单个列groupby,查询所有数据列的统计。二，遍历groupby的结果理解执行流程。5. 不同列使用不同的聚合函数。一，分组使用聚合函数做数据统计。4. 查看单列的结果数据统计。三，实例分组探索天气数据。3. 同时相看多种数据统计。1. 遍历单个列聚合的分组。2. 遍历多个列聚合的分组。# 方法1 ：预过滤。

pandas、numpy篇——groupby

sbjqiaoqiao的博客

06-15

4278

df.groupby(key) df.groupby([key list]) grouped.sum() 分组函数 mean() Compute mean of groups sum() Compute sum of group values size() Compute group sizes count() Compute count of group std() Standar...

使用Python 库 NumPy、Pandas 和 seaborn来分析泰坦尼克数据集.zip

01-03

在数据分析领域，Python库NumPy、Pandas和seaborn是不可或缺的工具。NumPy提供了强大的数值计算功能，Pandas则用于数据处理和管理，而seaborn则是基于matplotlib的数据可视化库，它提供了丰富的统计图形选项。在这个...

Python中NumPy和Pandas在数据分析中的高效操作

ArcherMarjo的博客

04-25

793

NumPy（Numerical Python的简称）主要用于处理大型多维数组和矩阵的数学运算，而Pandas则提供了高性能、易于使用的数据结构和数据分析工具。Pandas的DataFrame是一个二维的、大小可变的、且可以存储不同类型数据的表格型数据结构。例如，我们可以使用NumPy进行复杂的数学运算和数据处理，然后将结果转换为Pandas的DataFrame进行进一步的分析和可视化。这种操作方式与Python的列表相似，但由于NumPy数组在内存中的存储方式不同，因此其切片操作更加高效。

Python数据分析NumPy和pandas（三十、数据聚合和分组操作）

FreedomLeo1的博客

11-12

1654

对数据集进行分类并将函数应用于每个组（无论是聚合还是转换）是数据分析工作流程的关键组成部分。加载、合并和准备数据集后，需要按组统计数据或计算数据透视表，以便进行报告或可视化。pandas 提供了多功能的 GroupBy 界面，使您能够以自然的方式对数据集进行切片、切块和汇总。关系数据库和 SQL（代表“结构化查询语言”）流行的一个原因是数据可以轻松连接、筛选、转换和聚合。但是，SQL 等查询语言对执行按组操作不是很善长。

python数组分组_使用组计数数组对numpy数组的元素进行分组

weixin_39870700的博客

12-23

2017

给定两个数组，一个表示数据流，另一个表示组计数，例如：import numpy as np# given group counts: 3 4 3 2# given flattened data:[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ]group_counts = np.arra...

Numpy&pandas（四）–分组计算

12-22

import pandas as pd import numpy as np 分组计算分组计算三步曲：拆分 -> 应用 -> 合并拆分：根据什么进行分组？应用：每个分组进行什么样的计算？合并：把每个分组的计算结果合并起来。 df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], 'key2': ['one', 'two', 'one', 'two', 'one'], 'data1': np.random.randint(1, 10, 5),

NumPy

Geek_ymv的专栏

03-19

306

numpy shape方法的使用import numpy as np group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) print(group.shape) # (4,2) print("行大小 " + str(group.shape[0])) print("列大小 " + str(group.shape[1]))numpy...

Python科学计算之Numpy

weixin_44436319的博客

01-18

354

全文使用np表示numpy 创建数组 Array=np.array(列表/元组) 访问二维及以上的数组时以下两种放法等价 #打印二维数组第二行第二列的值，以下两种方法等价 print(Array[1,1]) print(Array[1][1])

Numpy&pandas（四）--分组计算

qq_42007339的博客

02-25

4326

import pandas as pd import numpy as np 分组计算分组计算三步曲：拆分 -> 应用 -> 合并拆分：根据什么进行分组？应用：每个分组进行什么样的计算？合并：把每个分组的计算结果合并起来。 df = pd.DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'], ...

numpy聚合分组求值

马行处的博客

01-12

3799

import numpy as np import pandas as pd data = pd.read_csv('D://pythonlianxi//data.csv') data['score2'] = data['score']*2 result = data.groupby(by=['class'])['score'].agg({ '总分':np.sum, '人数':np

groupby函数详解