使用python进行数据清洗及可视化
今天第一次使用pandas和matplotlib处理数据,以下纪录一些使用心得:
1、首先第一步就是要导入一些使用包:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
要把csv或者excel文件读取出来:
pa = pd.read_csv('E:/练习数据/patient.csv')
这里需要注意,我们直接复制出来的文件路径格式一般都是 \ ,这里我们要转换成 / ;
2 、由于我的文件列数过多,所以在notebook中显示不完全,如果要显示所有列,那就需要在开头进行一些设置:
pd.set_option('display.max_columns',None)
主要用到的就是set_option方法,具体用法可以参考其他文章;
3、之后就进入到了数据清理阶段:
首先删除不需要的列:
pa.drop(['病人卡号','病人姓名','省份','城市','咨询医生','类型','type_message'], axis=1, inplace=True)
这里使用drop方法,参数方面axis默认为0,是删除行,置为1是删