共享单车数据可视化分析

  • Python的安装步骤

1.双击安装包并执行如下操作

2.建议自定义安装路径

3.安装完成后,按下win+R,输入cmd,测试Python是否安装成功

  • PyCharm的安装步骤

1.双击安装包进行安装

2.根据电脑配置选择32位或64位,勾选.py,一路next完成安装

 

  • 第三方库(seaborn、numpy、matplotlib、pandas)的安装与导入

1.在PyCharm中安装第三方库

1.1打开PyCharm,点击File  > Setting  > Project:PyCharm projects  > Project Interpreter,点击 + 号,搜索numpy,查找版本,点击Install Package,出现Install successfully表示安装成功(其他包类似)

1.2写入简单代码以测试

2.从网站下载安装

2.1进入https://pypi.org/至如下界面,并输入待下载的安装包numpy

 

2.2进入cmd执行“pip install + 包名”进行安装

2.3测试,出现>>>则表示导入成功

 

  • 代码分析

1.导包操作

2.数据查看

2.1查看整个数据

2.2查看数据大小

2.3查看头五行

2.4查看后五行

2.5查看数据类型

2.6查看摘要信息

 

  • 数据处理

1.数据提取

1.1提取年月日

1.2提取小时

1.3在年月日的基础上提取星期值

1.4在年月日的基础上提取月份值

 

2.数据转化

2.1将season转化成英文

2.2将部分变量转化成分类变量

 

2.3删除无意义变量

3.数据清洗

3.1查看是否缺失数据

3.2查看是否有异常值

 

                                                                               箱型图

4.剔除数据

 

                                                                                   剔除后的数据记录

  • 数据分析与可视化

1.不同月份的骑行人数

       

                    每个月份的平均骑行人数                                             把count列按照降序排列的结果

 

                                                                        柱状图

2.一周内不同时间的骑行人数

 

       

                     一周内不同时间的骑行人数

 

                                                                                 点状图

作业:

1.不同季节不同时间的骑行人数

 

2.不同用户在不同时间的骑行人数

 

  • 实践操作

1.通过字典创建如下数据库,并根据“total”列进行升序排序。

代码:

结果:


2.对第一题数据框中的‘class’列进行分组,求各班各科目及总分的平均分,并重新设置索引。

代码:

结果:


3.请创建一个包含4个元素的列表,并对其中一个元素/多个元素进行访问,增加元素和删除元素。
代码:

结果:


4.请对train.csv进行读取,并查看该数据的相关信息。
代码:

结果:


5.对(4)中的数据框中的workingday列进行修改,将values为0映射为“rest”,将values为1映射为“work”,并查看最终结果。
代码:

结果:


6.a='2019/7/12 09:24:45',提取小时数和星期值。

代码:

结果:

7.请分别用普通函数和匿名函数实现求两参数的乘积。

代码:

结果:

8.a=’2019/7/12’,用两种方法提取月份值。

代码:

结果:

9.请对train.csv文件添加‘data’列,其内容为‘datetime’列中的年月日,添加完之后删除该列,并查看结果。

代码:

结果:

10.检测train.csv数据文件是否包含了空值和异常值(注意:检测异常值时可对数据中holiday列进行绘图检验)

代码:

结果:

 

 

 

 

  • 7
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Cyclistic 是一家虚构的公司,提供自行车共享设施。该公司有两大类骑手:休闲骑手和年度会员。休闲骑手是使用单程通行证和全天通行证的人。年度会员有一年的通行证可以使用自行车。 描述性分析 我已经分别使用每个月的数据透视表进行了初步分析数据透视表 1:这描述了每个工作日的骑行次数和平均骑行时长。 数据透视表 2:这分析了每种可骑行类型(即停放自行车、经典自行车和电动自行车)的骑行次数和平均骑行长度。 数据透视表 3:它比较了每个成员类型(即休闲和年度)的乘车次数和平均乘车时间。 数据透视表 4:这显示了整个月的平均和最大骑行长度。 数据透视表 5:该表记录了每个起点站的骑行次数和平均骑行长度。 我已经整理了每个月的这些摘要,并放在一个电子表格中,以确定每月和季节性的分析。我发现的一些有趣的事实和趋势如下: 最长的骑行发生在 2021 年 6 月至 7 月,创下大约 38 天的记录! 一年中的几个月,即 5 月到 9 月,自行车骑行的次数很高,7 月本身记录了 822k 的峰值。 11 月至 2 月见证了低乘车人数。2 月创下了最低的降幅,仅有 5 万次骑行。 Streeter Dr & Grand Ave 是最受欢迎的起点站,一个月内乘坐次数高达 15,000 次。 每月比较 其他一些重要的观察结果是: 经典自行车是最受欢迎的选择,每 3 次骑行中就有 2 次使用经典自行车。 停放自行车是骑行超过 1 小时的人的最爱。 休闲骑手的平均骑行长度高于年度会员。几乎是后者的两倍。 周六和周日的骑行次数最多。这两天的平均骑行时间也创下了历史新高。 使用 SQL 进行年视图分析 我将使用 SQL 合并所有的月度数据来做一个整体的年度分析。我将使用 Microsoft SQL Server 来执行所有数据库操作。 所有分步查询都可以在这里找到bikesharecasestudy.sql。请务必查看bikeShareCaseStudyReport.docx以查看所有重要数据和输出。 该分析揭示了年度会员和休闲骑手之间的一些有趣趋势。以下是分析。 年末会员的乘车份额增加(超过 50%),加上临时会员的乘车份额下降。最大值记录在 1 月 (80%)。 休闲骑手的平均骑行时长是年度骑手的两倍多。 年度会员在一年内记录的乘车次数多于休闲骑手。 周六的骑行次数和平均骑行时长最高,其次是周六和周五。周末生意兴隆。 经典自行车是这两种骑手中最喜欢的类型。停靠自行车是最不受欢迎的。此外,休闲会员选择经典自行车进行长途骑行。 临时会员通常更喜欢周末而不是工作日。年度车手则相反,他们在所有日子里的人数都很高,周日大幅下降。 使用 R 进行年视图分析 对于使用 R 的分析,我使用了 4 个季度的数据 - 2019 年的 Q2、Q3、Q4 和 2020 年的 Q1 。可以在此处找到用于清理、合并、分析可视化的脚本R_script.R。 分享 此阶段是将要向利益相关者展示的重要和相关信息可视化。 年度会员和休闲骑手之间最显着的区别之一是他们在工作日的运营模式。 有报告

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值