"""
分析数据
————如分析sku的长度
"""
import pandas as pd
import numpy as np
data_file='./data/data_zh/sku_80k.csv' #待分析的文件
def ana_len(file,key=None):
"""
分析某一字段的长度分布
:param file: 要分析的文件
:param key: 要分析的字段
:return:
"""
key_len=key+"_len"
data=pd.read_csv(data_file,nrows=None)
data[key_len]=data[key].apply(len)
#percentiles指定排前%的取值,默认值是25 45 75
print( data[key_len].describe(percentiles=[0.1,0.25,0.75,0.8,0.9,0.95,0.999]))
# 中位数
print(data[key_len].median())
print(data[key_len].value_counts()) #
return 0
if __name__=="__main__":
ana_len(data_file,key="k_text")