【数据分析】Kaggle项目之共享单车数据分析（一）

最新推荐文章于 2024-08-16 20:22:21 发布

ccszbd

最新推荐文章于 2024-08-16 20:22:21 发布

阅读量9.7k

点赞数 10

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_42864175/article/details/94476856

版权

本文探讨了一个Kaggle项目，涉及华盛顿共享单车系统的租赁需求预测。通过对历史天气和租赁数据的分析，处理异常值，特别是针对租赁数量的长尾分布。项目中，数据预处理包括检查和处理风速的异常值，并使用随机森林预测填充缺失值。分析显示，租赁数量与天气等级、风速、温度、湿度等因素密切相关，且会员和临时用户的出行模式存在差异。

摘要由CSDN通过智能技术生成

项目背景

自行车共享系统是一种租赁自行车的方法，注册会员、租车、还车都将通过城市中的站点网络自动完成，通过这个系统人们可以根据需要从一个地方租赁一辆自行车然后骑到自己的目的地归还。

需要结合历史天气数据下的使用模式，来预测华盛顿共享自行车的租赁需求

数据提供了跨越两年的每小时租赁数据，包含天气信息和日期信息，训练集由每月前19天的数据组成，测试集是每月第二十天到月底的数据

提出问题

通过测试集中的天气等特征值预测会员租赁数量，临时租赁数量和总租赁数量

数据预处理

查看缺失值

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list the files in the input directory

from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='whitegrid',palette='tab10')

train=pd.read_csv('../input/train.csv')
train.info()

test = pd.read_csv('../input/test.csv')
test.info()

数据没有缺失值，但是没有缺失值不代表没有异常

检查异常值

train.describe()

先从数值型数据入手，看出租赁额（count）数值差异较大，所以希望观察一下count的密度分布

# 观察租赁额密度分布
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
fig.set_size_inches(6,5)

sns.distplot(train['count'])
ax.set(xlabel='count',title=

最低0.47元/天解锁文章

ccszbd

关注

10
点赞
踩
83

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录