pandas处理指定列去除所有重复的值,且按原来读入顺序存储

数据展示

import pandas as pd
import numpy as np
import json
from collections import Counter

data = pd.read_excel("work/Test.xlsx")
rows = data.shape[0] #行数
col = data.shape[1]  #列数
user_index = list(data.columns.values)#行标签
print(user_index, "\n 一共有:{}行,{}列".format(rows, col))
data.head(-3)

部分数据如下所示:

在这里插入图片描述

代码处理

def dup_repeat(data, clo_name):
    """
    data : pd读入的数据,含有行列索引
    clo_name : 输入要去重值的列名

    输出 : data[clo_name] 为不同的所有值
    """

    list_s= []

    for clo in data[clo_name]:
        list_s.append(int(clo))

    list_arr = list(set(list_s)) #转为set容器存储去重,但不能俺index遍历
    list_arr.sort(key = list_s.index)  #按原始顺序读入list存储

    return len(list_arr), list_arr

# 比如要查询有多少不同的pid
len_pid, list_arr = dup_repeat(data,"pid")
print("pid:这一列共有{}不同的数据,分别是:{}".format(len_pid, list_arr))

len_cla, list_arr = dup_repeat(data,"class")
print("class:这一列共有{}不同的类,分别是:{}".format(len_cla, list_arr))
输出为:
pid:这一列共有10不同的数据,分别是:[7, 8, 9, 10, 11, 12, 13, 14, 15, 16]
class:这一列共有6不同的类,分别是:[15, 4, 5, 9, 10, 11]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

锦鲤AI幸运

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值