数据展示
import pandas as pd
import numpy as np
import json
from collections import Counter
data = pd.read_excel("work/Test.xlsx")
rows = data.shape[0] #行数
col = data.shape[1] #列数
user_index = list(data.columns.values)#行标签
print(user_index, "\n 一共有:{}行,{}列".format(rows, col))
data.head(-3)
部分数据如下所示:
代码处理
查找特定列,某一个值出现过多少次
def maturity_count(data_col, val):
"""
data_col : 输入data的某一列 如要输入pid这一列,则输入data.pid
val : 特定data_col这一列索要查询的value值
return : 返回指定列,某一个值(val)出现多少次
"""
data_pid_dict = data_col.value_counts()
count = data_pid_dict[val]
return count
count = maturity_count(data.pid, 7)
print("查找pid这一列中7出现的次数为:{}次".format(count))
count = maturity_count(data.pid, 8)
print("查找pid这一列中8出现的次数为:{}次".format(count))
输出为:
查找pid这一列中7出现的次数为:3
查找pid这一列中8出现的次数为:7
查找特定列,某一个值第一次出现的索引
def find_index(data_col, val):
"""
data_col : 输入data的某一列 如要输入pid这一列,则输入data.pid
val : 特定data_col这一列索要查询的value值
输出 : 查询的value值第一次出现的index
"""
val_list = []
val_list.append(val)
val_list.append("end")
index = data_col.isin(val_list).idxmax()
return index
index = find_index(data.pid, 16)
print("查找pid这一列中16第一次出现的索引在:{}".format(index))
index = find_index(data.pid, 8)
print("查找pid这一列中8第一次出现的索引在:{}".format(index))
输出为:
查找pid这一列中16第一次出现的索引在:32
查找pid这一列中8第一次出现的索引在:3