机器学习入门04——共享单车数据预测实验

最新推荐文章于 2024-05-14 18:08:00 发布

逗创创

最新推荐文章于 2024-05-14 18:08:00 发布

阅读量1.1w

点赞数 15

分类专栏：机器学习&计算机视觉文章标签：机器学习线性回归岭回归 lasso回归共享单车数据预测

本文链接：https://blog.csdn.net/u014005758/article/details/89331803

版权

共享单车骑行数据预测

1、任务描述请在Capital Bikeshare （美国Washington, D.C.的一个共享单车公司）提供的自行车数据上进行回归分析。根据每天的天气信息，预测该天的单车共享骑行量。

原始数据集地址：http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset 1) 文件说明 day.csv: 按天计的单车共享次数（作业只需使用该文件） hour.csv: 按小时计的单车共享次数（无需理会） readme：数据说明文件

字段说明 Instant记录号 Dteday：日期 Season：季节（1=春天、2=夏天、3=秋天、4=冬天） yr：年份，(0: 2011, 1:2012) mnth：月份( 1 to 12) hr：小时 (0 to 23) （只在hour.csv有，作业忽略此字段） holiday：是否是节假日 weekday：星期中的哪天，取值为0～6 workingday：是否工作日 1=工作日（是否为工作日，1为工作日，0为非周末或节假日 weathersit：天气（1：晴天，多云 2：雾天，阴天 3：小雪，小雨 4：大雨，大雪，大雾） temp：气温摄氏度 atemp：体感温度 hum：湿度 windspeed：风速 casual：非注册用户个数 registered：注册用户个数 cnt：给定日期（天）时间（每小时）总租车人数，响应变量y （cnt = casual + registered）

casual、registered和cnt三个特征均为要预测的y，作业里只需对cnt进行预测

做机器学习预测，我们拿到数据之后的第一步是查看数据，查看数据由很多种方法，下面简单介绍：

# 数据读取及基本处理
import pandas as pd
import numpy as np

# 读入数据
train = pd.read_csv("day.csv")
print(train.head())
#print("train : " + str(train.shape))

我们可以看到数据的前5页，大概看一下数据的结构

输入图片说明

使用：

print(train.info())

我们可以看到数据的总体信息

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
instant       731 non-null int

关注