说在前面:这一次的datawhale组队学习内容是DCIC的早高峰共享单车潮汐点的群智优化以及跟着两位前辈的的开源学习笔记进行学习。
题目背景
为更好地掌握早高峰潮汐现象的变化规律与趋势,我们根据所给数据进行数据分析,识别出工作日早高峰07:00-09:00潮汐现象最突出的40个区域。
所谓潮汐现象就是当我们要骑共享单车时发现没有了或者是我们要停放共享单车时发现这个区域没地方可停。
所以我们将发生在早晚高峰时段共享单车“借不到、还不进”的问题称之为“潮汐”现象。我们需要将涉及的“潮汐现象”聚焦“还不进”的问题,识别出早高峰共享单车最淤积的40个区域。
数据集
下载完数据我简单的看了看数据集,因为一开始我们需要分析出这40个区域,第一想到的是聚类,又仔细一看发现里面是有给出单车和停放点的经纬度,就想起了前不久美赛,我处理D时将数据所给字符串编码成数值型后再进行下一步的计算,认为同理可以将经纬度进行编码,不过能力有限,字符串编码接触过,不过经纬度编码从来没接触过实在无从下手,后面学习了两位前辈的学习笔记,发现其中一个思路也是编码,是运用了python中的geohash库,打开了我的新世界大门。
(geohash基本原理是将地球理解为一个二维平面,将平面递归分解成更小的子块,每个子块在一定经纬度范围内拥有相同的编码,这种方式简单粗暴,可以满足对小规模的数据进行经纬度的检索)
分析思路
运用geohash库进行编码后进行经纬度匹配,停了多少车和骑走了多少车,之后就统计某一区域不同时间的入流量和出流量并可视化,最后通过计算留存车辆和街道停车位总面积计算出密度就可以得出每条道路的潮汐情况,取出密度高的40个区域。
安装库
最主要就是安装geohash库了,这是一个拦路虎,疯狂百度n多次还是解决不来。百度原文:
“python3 安装方法: pip install geohash
安装成功后,仍无法 import geohash, 提示报错:ImportError: No module named ‘geohash’。
网上查询各类方法后,找到一个解决方法:
\1. 将Geohash文件名改成 geohash
\2. geohash文件夹下的 init.py 中的 from geohash import decode_exactly,
decode, encode改成 from .geohash import decode_exactly, decode, encode
geohash前多加一个 ‘.’ 即可。”
我找了好久还是没能找到里面所说的文件夹,是我的问题,毕竟这是有小伙伴成功解决的方法,但是我不行,所以我得重新想办法,结果我突然想起了上学期python课上老师教的下载第三方库方法,到pypi.org上找geohash,复制安装命令发现是geohash2,应该是版本,之后在我的jupyter上就可以成功运行啦,终于没有出现“ModuleNotFoundError: No module named ‘geohash’”的错误了。
按学习笔记运行代码结果
将入流量和留出量可视化的结果展示
可以很清楚的发现在25号,圣诞节那天就会发生找不到共享单车的问题了。
接下来通过计算密度,通过密度大小取前40个区域。
上交
在提交答案的过程也是学到了很多,比如我第一次接触到通过 SFTP 方式来完成提交的,百度上找了下载安装filezilla并成功提交。