文章目录
0 前言
🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。
为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是
🚩 基于大数据的共享单车数据分析与可视化
🥇学长这里给一个题目综合评分(每项满分5分)
- 难度系数:3分
- 工作量:3分
- 创新点:4分
🧿 选题指导, 项目分享:
https://gitee.com/yaa-dc/warehouse-1/blob/master/python/README.md
1 课题背景
前几年共享单车项目在国内大热,五颜六色的单车一夜之间遍布城市的各个角落。其实,早在3年前国外就有类似的项目兴起:通过历史用车记录结合天气等数据预测共享单车项目在华盛顿的需求
数据的特征解释
2 数据清洗
导库
import datetime
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from pyecharts.charts import *
import pyecharts.options as opts
from pyecharts.faker import Faker
from pyecharts.commons.utils import JsCode
读数据
df=pd.read_csv('data.csv')
提出假设
这里我们将研究决定单车租借的因素,上面给出了各个特征的解释,首先我们先大胆的提出假设:
- 租借数量可能时间有关
- .租借数量可能与天气的好坏有着很大的联系
- 租借的数量与是否为工作日有关
- 租借的数量可能与风速有关
查看有无缺失值和数据类型的情况
发现并无缺失值,不过时间的数据类型是object 需要转化为时间类型,同时为了更方便的分析数据,将datetime拆为 Year Month Weekday Hour
特征提取
#数据预处理
data['season'] = data['season'].map({
1:'spring',2:'summer',3:'fall',4:'winner'})
data['weather'] = data['weather'].map({
1:'Good',2:'Normal',3:'Bad',4:'ver Bad'})
#特征衍生
data['datetime'] = pd.to_datetime(data['datetime'])
data['year'] = data.datetime.apply(lambda d:d.year)
data['month'] = data.datetime.apply(lambda d:d.month)
data['day'] = data.datetime.apply(lambda d:d.day)
data['hour'] = data.datetime.apply(lambda d:d.hour)
data['minute'] = data.datetime.apply(lambda d:d.minute)
data.head()
查看一下各个特征的相关性*
可以看出与count正相关最大的是temp 和atemp,holiday的相关性最小
3 数据可视化
通过Matplotlib、Seaborn等工具可视化理解数据,分析特征与标签之间的相关性。
热力图
为了更直观的表现出数据的背后意义,我们需要用可视化来做辅助,首先将上述的相关系数的数据可视化为热力图的呈现方式
整体特征分布
sns.set_style('ticks')
plt.figure(figsize=(</