数据展示
import pandas as pd
import numpy as np
import json
from collections import Counter
data = pd.read_excel("work/Test.xlsx")
rows = data.shape[0] #行数
col = data.shape[1] #列数
user_index = list(data.columns.values)#行标签
print(user_index, "\n 一共有:{}行,{}列".format(rows, col))
data.head(-3)
部分数据如下所示:
代码处理
def dup_repeat(data, clo_name):
"""
data : pd读入的数据,含有行列索引
clo_name : 输入要去重值的列名
输出 : data[clo_name] 为不同的所有值
"""
list_s= []
for clo in data[clo_name]:
list_s.append(int(clo))
list_arr = list(set(list_s)) #转为set容器存储去重,但不能俺index遍历
list_arr.sort(key = list_s.index) #按原始顺序读入list存储
return len(list_arr), list_arr
# 比如要查询有多少不同的pid
len_pid, list_arr = dup_repeat(data,"pid")
print("pid:这一列共有{}不同的数据,分别是:{}".format(len_pid, list_arr))
len_cla, list_arr = dup_repeat(data,"class")
print("class:这一列共有{}不同的类,分别是:{}".format(len_cla, list_arr))
输出为:
pid:这一列共有10不同的数据,分别是:[7, 8, 9, 10, 11, 12, 13, 14, 15, 16]
class:这一列共有6不同的类,分别是:[15, 4, 5, 9, 10, 11]