一、数据来源:
Bike Sharing Demand | Kagglewww.kaggle.com二、提出问题:
共享单车使用量与哪些因素有关?这些因素如何影响人们使用单车?
(原本这个项目的目的是预测华盛顿地区的共享单车的租赁需求量,在这里我们主要任务是将共享单车的数据进行可视化分析,不着重选择合适的机器学习模型来预测需求量。)
三、理解数据:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime
import seaborn as sns
#优化图片显示结果
%matplotlib inline
# 导入训练数据和测试数据
train_set = pd.read_csv('./train.csv')
print('训练数据集:',train_set.shape) # >>> 训练数据集: (10886, 12)
test_set = pd.read_csv('./test.csv')
print('测试数据集:',test_set.shape) # >>> 测试数据集: (6493, 9)
#合并数据
total_set = pd.concat([train_set,test_set])
total_set.info() # 训练集和测试集合并之后的信息
total_set.head()
四、清洗数据:
<