分析pandas的数据,分析某一列数据的长度分布等等

"""

分析数据

————如分析sku的长度

"""

import pandas as pd

import numpy as np

 

data_file='./data/data_zh/sku_80k.csv' #待分析的文件

 

def ana_len(file,key=None):

    """

    分析某一字段的长度分布

    :param file: 要分析的文件

    :param key: 要分析的字段

    :return:

    """

    key_len=key+"_len"

    data=pd.read_csv(data_file,nrows=None)

    data[key_len]=data[key].apply(len)

    #percentiles指定排前%的取值,默认值是25 45 75

    print( data[key_len].describe(percentiles=[0.1,0.25,0.75,0.8,0.9,0.95,0.999]))

    # 中位数

    print(data[key_len].median())

 

    print(data[key_len].value_counts()) #

    return 0

 

if __name__=="__main__":

    ana_len(data_file,key="k_text")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值