pandas处理指定列去除所有重复的值,且按原来读入顺序存储

最新推荐文章于 2022-07-01 16:18:06 发布

锦鲤AI幸运

最新推荐文章于 2022-07-01 16:18:06 发布

阅读量679

点赞数

分类专栏：数据整理数据预处理EDA 文章标签： python pandas 数据结构

本文链接：https://blog.csdn.net/qq_37700257/article/details/119730244

版权

数据整理同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

数据预处理EDA

15 篇文章 0 订阅

订阅专栏

数据展示

import pandas as pd
import numpy as np
import json
from collections import Counter

data = pd.read_excel("work/Test.xlsx")
rows = data.shape[0] #行数
col = data.shape[1]  #列数
user_index = list(data.columns.values)#行标签
print(user_index, "\n 一共有：{}行，{}列".format(rows, col))
data.head(-3)

部分数据如下所示:

在这里插入图片描述

代码处理

def dup_repeat(data, clo_name):
    """
    data : pd读入的数据，含有行列索引
    clo_name : 输入要去重值的列名

    输出 : data[clo_name] 为不同的所有值
    """

    list_s= []

    for clo in data[clo_name]:
        list_s.append(int(clo))

    list_arr = list(set(list_s)) #转为set容器存储去重，但不能俺index遍历
    list_arr.sort(key = list_s.index)  #按原始顺序读入list存储

    return len(list_arr), list_arr

# 比如要查询有多少不同的pid
len_pid, list_arr = dup_repeat(data,"pid")
print("pid:这一列共有{}不同的数据,分别是:{}".format(len_pid, list_arr))

len_cla, list_arr = dup_repeat(data,"class")
print("class:这一列共有{}不同的类,分别是:{}".format(len_cla, list_arr))

输出为:
pid:这一列共有10不同的数据,分别是:[7, 8, 9, 10, 11, 12, 13, 14, 15, 16]
class:这一列共有6不同的类,分别是:[15, 4, 5, 9, 10, 11]

锦鲤AI幸运

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录