共享单车骑行数据预测
任务说明
1、 任务描述 请在Capital Bikeshare (美国Washington, D.C.的一个共享单车公司)提供的自行车数据上进行回归分析。根据每天的天气信息,预测该天的单车共享骑行量。
原始数据集地址:http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset 1) 文件说明 day.csv: 按天计的单车共享次数(作业只需使用该文件) hour.csv: 按小时计的单车共享次数(无需理会) readme:数据说明文件
- 字段说明 Instant记录号 Dteday:日期 Season:季节(1=春天、2=夏天、3=秋天、4=冬天) yr:年份,(0: 2011, 1:2012) mnth:月份( 1 to 12) hr:小时 (0 to 23) (只在hour.csv有,作业忽略此字段) holiday:是否是节假日 weekday:星期中的哪天,取值为0~6 workingday:是否工作日 1=工作日 (是否为工作日,1为工作日,0为非周末或节假日 weathersit:天气(1:晴天,多云 2:雾天,阴天 3:小雪,小雨 4:大雨,大雪,大雾) temp:气温摄氏度 atemp:体感温度 hum:湿度 windspeed:风速 casual:非注册用户个数 registered:注册用户个数 cnt:给定日期(天)时间(每小时)总租车人数,响应变量y (cnt = casual + registered)
casual、registered和cnt三个特征均为要预测的y,作业里只需对cnt进行预测
第一步 数据探索
做机器学习预测,我们拿到数据之后的第一步是查看数据,查看数据由很多种方法,下面简单介绍:
首先使用pd.read_csv函数读入数据
# 数据读取及基本处理
import pandas as pd
import numpy as np
# 读入数据
train = pd.read_csv("day.csv")
print(train.head())
#print("train : " + str(train.shape))
我们可以看到数据的前5页,大概看一下数据的结构
使用:
print(train.info())
我们可以看到数据的总体信息
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
instant 731 non-null int