文章目录
在对数据进行挖掘之前,我们得到的数据往往是不太理想的,数据缺失值太严重导致统计数据指标不太容易,这篇文章记录下如何在含有缺失值的情况下统计出我想要的一些数据
实验环境
- ubuntu 18.04
- python 3.6
- numpy scipy pandas
- 随意一个csv文件(当然是要有数据的,我的csv部分数据如下)
- 每个py文件都导入了以下三个依赖
import numpy as np
import pandas as pd
from scipy import stats
读取csv文件
读取csv文件,并在函数中打印出读取的结果,最后返回一个DataFrame对象
def readcsv(filepath):
"""
读取csv文件
:param filpath: 文件路径
"""
df = pd.read_csv(filepath)
print(df)
return df
filepath = 'santander-customer-satisfaction/test.csv'
readcsv(filepath)
我的运行结果结果如下:
删除数据中我们不需要的列(假设我不需要ID的属性)
def dropProperty(df, drop_properties):
"""
传入一个数据表
:param df: dataFrame对象
:param drop_properties: 想要删除的属性集
:return 返回一个删掉了一个或多个属性的df对象,不影响传入的对象
"""
#axis=0代表删除相应的行,axis=1代表删除相应的列
df = df.drop(drop_properties, axis=1)
r