【案例】统计特征出现次数并合并同特征样本

最新推荐文章于 2024-07-19 16:36:18 发布

爱数学的企鹅

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量187

点赞数 1

分类专栏： Pandas 文章标签： python pandas 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53380069/article/details/129581338

版权

Pandas 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据分析案例：在一个excel表格中，行为样本，列为特征. 其中有两个特征（分别称之为x和y）可能出现若干次，我们希望：

统计x出现次数，新开一列特征x_count记录该特征出现次数. 例如有5个样本的x都相同，则这5个样本的x_count列的值都赋为5.
合并具有相同x和y的样本，对于其它的特征，只保留其中一个样本的即可（例如同x和y的样本中，保留顺序第一次出现的样本的其它特征）.

关键方法：apply, groupby.

读取表格

import pandas as pd
df = pd.read_excel('excel_name.xlsx')

统计特征x的出现次数

很经典的方式，利用字典这一数据结构，遍历特征x，已存在于字典则+1，不存在于字典则初始化为1.
有了特征名到出现次数的映射，就可以调用Pandas的apply方法映射出新的特征列，存储出现次数的信息.

x_count = {}
for x in df['x']:
    if x in x_count:
        x_count[x] += 1
    else:
        x_count[x] = 1

将特征x的出现次数赋值给对应的样本

apply方法获取一个函数，逐个apply到指定特征列的每个值. 也就是遍历该特征列的每个值作为函数输入，所以得到的是一列数据.
函数可以用lambda函数，更简洁.

df['x_count'] = df['x'].apply(lambda x: x_count[x])

合并相同特征x（特征y）的样本

groupby方法，根据指定特征进行分组，这样就可以很方便将同x和y的样本聚合到一起.
first方法保留group之后每组的第一个样本.

df = df.groupby(['x', 'y']).first().reset_index()

保存表格

df.to_excel("excel_name.xlsx", index=False)

爱数学的企鹅

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
【案例】统计特征出现次数并合并同特征样本

数据分析案例：在一个excel表格中，行为样本，列为特征. 其中有两个特征（分别称之为`x`和`y`）可能出现若干次，我们希望：1. 统计`x`出现次数，新开一列特征`x_count`记录该特征出现次数. 例如有5个样本的`x`都相同，则这5个样本的`x_count`列的值都赋为5.2. 合并具有相同`x`和`y`的样本，对于其它的特征，只保留其中一个样本的即可（例如同`x`和`y`的样本中，保留顺序第一次出现的样本的其它特征）.
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。