目录
一、获取数据
二、理解数据
三、 数据清洗
四、数据可视化分析
一、获取数据
从kaggle下载数据集
Cycle Share Datasetwww.kaggle.com此数据是Pronto在西雅图运营的500辆共享单车数据(2014-2016年),提供了包括租车信息、共享单车信息以及每日天气数据。
二、理解数据
1.导入需要用到的工具包
import pandas as pd # 导入数据框处理工具包
import datetime # 导入处理时间工具包
import matplotlib.pyplot as plt # 导入matplotlib工具包中绘图函数pyplot
%matplotlib inline
plt.style.use('ggplot') # 选择画图风格
import warnings # 忽略警告提示
warnings.filterwarnings('ignore')
from pylab import mpl
mpl.rcParams['font.sans-serif'] =['SimHei'] # 指定默认中文字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像中负号‘-’显示为方块的问题
2.导入需要分析的数据
trip = pd.read_csv(r"C:UsersAdministratorDesktopkaggle datacycle-share-datasettrip.csv", encoding = 'utf8', sep = ',')
weather = pd.read_csv(r"C:UsersAdministratorDesktopkaggle datacycle-share-datasetweather.csv", encoding = 'utf8', sep = ',')
数据存储格式为CSV文件,用记事本方式打开数据集并设置为中文编码(utf8),为后期分析中文数据集打下良好基础。
3.查看数据集信息
对数据集进行概览,查看字段数据类型及缺失值情况,如存在缺失值,后期应对缺失值加以处理再进行分析问题。
4.删除冗余字段
通过对数据集的概览,删除冗余字段并重命名重要字段,减少内存的占用,加快数据处理速度,增加数据的可读性。
weather.drop(['Max_Temperature_F','Min_TemperatureF',
'Max_Dew_Point_F','Min_Dewpoint_F',
'Max_Humidity','Min_Humidity',
'Max_Sea_Level_Pressure_In','Min_Sea_Level_Pressure_In',
'Max_Visibility_Miles','Min_Visibility_Miles',
'Max_Wind_Speed_MPH','Max_Gust_Speed_MPH','Events'],axis = 1,inplace