excel没有方便的重复值计数显示功能,批量操作很麻烦。所以用pd.value_counts()写了个python批量操作函数。时间复杂度可能有点高,我跑几万条数据跑了十几分钟,要跑大数据还是用别的吧。代码如下:
import pandas as pd
def cfzjs(data): #重复值计数
col_data=data.columns.values.tolist()
df_cfz=pd.DataFrame(columns=col_data)
for list_i in col_data:
ret=pd.value_counts(data[list_i])
list1=[]
for i,j in ret.items():
result="{}:{}".format(i,str(j))
list1.append(result)
for i in range(len(list1)):
df_cfz.loc[i,list_i]=list1[i]
return df_cfz
#输出dataframe
df1=pd.read_excel(".xlsx",sheet_name='')
df2=pd.read_excel(".xlsx",sheet_name='') #起始行不是第一行的话,输入header=行数-1
list1=[df1,df2]
for i in list1:
i=cfzjs(i)
with pd.ExcelWriter(".xlsx") as writer:
df1.to_excel(writer, sheet_name='Sheet1', index=False)
df2.to_excel(writer, sheet_name='Sheet2', index=False)
结果大概是这样的:
如果想要把重复值与计数分开可以在excel中数据-分列拆分,不过应该不需要
over