机器学习入门04——共享单车数据预测实验

共享单车骑行数据预测

任务说明

1、 任务描述 请在Capital Bikeshare (美国Washington, D.C.的一个共享单车公司)提供的自行车数据上进行回归分析。根据每天的天气信息,预测该天的单车共享骑行量。

原始数据集地址:http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset 1) 文件说明 day.csv: 按天计的单车共享次数(作业只需使用该文件) hour.csv: 按小时计的单车共享次数(无需理会) readme:数据说明文件

  1. 字段说明 Instant记录号 Dteday:日期 Season:季节(1=春天、2=夏天、3=秋天、4=冬天) yr:年份,(0: 2011, 1:2012) mnth:月份( 1 to 12) hr:小时 (0 to 23) (只在hour.csv有,作业忽略此字段) holiday:是否是节假日 weekday:星期中的哪天,取值为0~6 workingday:是否工作日 1=工作日 (是否为工作日,1为工作日,0为非周末或节假日 weathersit:天气(1:晴天,多云
2:雾天,阴天
3:小雪,小雨
4:大雨,大雪,大雾) temp:气温摄氏度 atemp:体感温度 hum:湿度 windspeed:风速 casual:非注册用户个数 registered:注册用户个数 cnt:给定日期(天)时间(每小时)总租车人数,响应变量y (cnt = casual + registered)

casual、registered和cnt三个特征均为要预测的y,作业里只需对cnt进行预测

第一步 数据探索

做机器学习预测,我们拿到数据之后的第一步是查看数据,查看数据由很多种方法,下面简单介绍:

首先使用pd.read_csv函数读入数据
# 数据读取及基本处理
import pandas as pd
import numpy as np

# 读入数据
train = pd.read_csv("day.csv")
print(train.head())
#print("train : " + str(train.shape))

我们可以看到数据的前5页,大概看一下数据的结构

输入图片说明

使用:

print(train.info())

我们可以看到数据的总体信息

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 16 columns):
instant       731 non-null int
  • 15
    点赞
  • 140
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值