python统计数据指标的常见方法

最新推荐文章于 2024-08-02 03:45:00 发布

123liudong

最新推荐文章于 2024-08-02 03:45:00 发布

阅读量3.7k

点赞数 2

分类专栏：编程文章标签： python统计常见数据指标

本文链接：https://blog.csdn.net/qq_38727626/article/details/89320151

版权

文章目录

实验环境
读取csv文件
删除数据中我们不需要的列（假设我不需要ID的属性）
统计某一列或多列数据有多少种不同的值
统计某一列有多少个等于某个值（测试我这里统计第二列［var3］等于32的值的个数）
求取去除缺失值的均值
关于众数＆最大值＆最小值＆出现频率在前几的数据

在对数据进行挖掘之前，我们得到的数据往往是不太理想的，数据缺失值太严重导致统计数据指标不太容易，这篇文章记录下如何在含有缺失值的情况下统计出我想要的一些数据

实验环境

ubuntu 18.04
python 3.6
numpy scipy pandas
随意一个csv文件（当然是要有数据的，我的csv部分数据如下）
每个py文件都导入了以下三个依赖

import numpy as np
import pandas as pd
from scipy import stats

读取csv文件

读取csv文件，并在函数中打印出读取的结果，最后返回一个DataFrame对象

def readcsv(filepath):
    """
    读取csv文件
    :param filpath: 文件路径
    """
    df = pd.read_csv(filepath)

    print(df)
    return df

filepath = 'santander-customer-satisfaction/test.csv'
readcsv(filepath)

我的运行结果结果如下：

删除数据中我们不需要的列（假设我不需要ID的属性）

def dropProperty(df, drop_properties):
    """
    传入一个数据表
    :param df: dataFrame对象
    :param drop_properties: 想要删除的属性集
    :return 返回一个删掉了一个或多个属性的df对象，不影响传入的对象
    """
　　＃axis=0代表删除相应的行，axis=1代表删除相应的列
    df = df.drop(drop_properties, axis=1)
    r