GIS+=地理信息+行业+大数据——纽约公开11亿条出租车和Uber原始数据下载及分析

一览众山小编辑团队

原文/ Todd Schneider

翻译/ 沈玮薇 陈翚

文献/ 蒋理 校核/ 众山小编辑/ 众山小 排版/ 徐颖 2014-2015 © 

转载请注明:源自公众号“一览众山小-可持续城市与交通” 



最近的出租车和互联网约车之争一时成为了热点,不过由于缺乏详细的数据信息分析,很多的结论都是定性为主,并为各种利益团体所把持。因此今天我们就介绍一下 纽约的开放心态,高达几十个G的有关出租车和UBER的上下客出行数据被免费分享出来,供大家来研究。我们认为这样的科学态度才是支持我们正确认识并推动 出租车行业改革的基础。出租车是一种什么样的物种。他们书写着城市发展的历史痕迹,享受着经济繁荣的灯红酒绿,歌颂着城市缔造者的丰功伟绩,经历着社会变 革的际会风云。当出租车遇见了GPS定位,他的故事从“字迹”变成了“大数据”。当出租车的大数据遇见了纽约,他们的故事就成了古迹,他们的字迹就成了甲 骨文,引来考古学者们各显神通,探究真相。这是一篇从2009年1月到2015年6月期间超过11亿条的城市内部个体出租车出行记录研究出来的文章。你想 知道纽约的市民如何生活?如何工作?如何度过夜生活?如何赶飞机?去哪里更容易邂逅华尔街的投资银行家?“全球出租车公敌”Uber到底是天使还是魔鬼? 那就“耐心”的欣赏吧。本文借助全美公开的出租车和Uber打车数据的视角,对城市内的居民区、夜生活、机场交通等更多方面的内容,进行开源的探索。这篇 真心是大数据,我们将提供好几十个G的原始数据下载~~~纽约,怪我咯?


 概述     

纽约市出租车和轿车委员会发布了一份惊人详细的历史数据集,包括了从2009年1月到2015年6月期间超过11亿条的城市内部个体出租车出行记录(参考文献1,请联系我们索取)。 总的来说,这些详细的出行层面的数据不仅仅是记录了出租车上下客坐标的巨大列表:这是一个关于纽约的故事。上下班高峰期从中城到肯尼迪(机场)的交通状况 有多糟糕?周六晚上出去玩时,“桥和隧道”在哪里聚集?什么时候投资银行家来上班?Uber打车是如何改变出租车市场的现状?布鲁斯•威利斯和塞缪尔•杰 克逊能否在30分钟内从百老汇72街到华尔街?这个数据集解决了所有这些问题,甚至更多。  我 把每一次出行的坐标映射到当地人口普查区和居民区上,然后开始努力从数据中提取故事和意图。这篇文章涵盖了很多内容,但对于那些想自己继续做更多分析的 人:这篇文章中的所有内容——数据、软件和代码,都是可以免费获得的。下载和分析数据的详细说明,可以在GitHub(一个开源代码库)上找到。(https://github.com/toddwschneider/nyc-taxi-data)  


目录     

1、地图

2、数据

3、区的动态和Uber打车的出现

4、机场交通

5、虎胆龙威3的现实情况

6、天气是如何影响出租车和Uber打车的乘客数量

7、纽约的深夜出租车指数

8、“桥和隧道”的聚集

9、威廉斯堡的北部

10、隐私问题

11、投资银行家

12、最后的感想


  1地图 

我当然不是第一个使用公共出租车数据制作地图的人,但我目前还没有看到哪一个地图能够包含2009年以来所有黄色和绿色出租车上下客的全部数据。你可以点击地图来查看高分辨率的版本。 

 交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图一、纽约市的出租车上客数

  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二、纽约市的出租车下客数  


这 些地图分别显示了纽约市从2009年到2015年期间每一次出租车的上客和下客。这些地图由很小的点组成,亮一点的区域表示更多的出租车在活动。绿色的区 域表示绿色博罗出租车的活动情况,这个绿色博罗出租车只能在上曼哈顿和外围区上客。请注意上客是如何更多的集中在曼哈顿,而下客是如何向外围区进一步延 伸。 如果你觉得这些图很漂亮,我推荐你查看高分辨率的上、下客图片。  


2数据  

纽约市出租车数据

  出 租车和轿车委员会发布的官方的出行记录数据集包括11亿多条从2009年1月到2015年6月的出行记录,包括了黄色和绿色的出租车。每一条出行记录包括 了出行从哪开始到哪结束的精确位置坐标、出行什么时候开始什么时候结束的时间戳,再加上一些其他的变量,包括费用、支付方式和出行距离。  我 使用PostgreSQL(一种数据库)来存储数据,使用PostGIS来完成地理上的计算,包括将大量的地图上的经纬度坐标映射到纽约市人口普查区和居 民区。在添加任何索引前,全部数据集占了267GB。更多的详细的关于数据库模式和地理计算的信息可以看一下GitHub 存储库。  Uber打车数据  感谢FiveThirtyEight(一个数据新闻网站)的人们,这里也有一些公开的数据,包括将近1900万条纽约市内2014年4月到9月和2015年1月到6月的Uber打车数据(http://fivethirtyeight.com/tag/uber/),(参考文献2,请联系我们索取)这 些数据我已经合并到数据集中。Uber打车数据并不像出租车数据那样详细,特别是,Uber打车数据仅仅提供上客的时间和位置信息,而没有下客的信息。数 据集中的每一条出行记录有一个cab_type_id字段,表示这次出行是属于黄色出租车、绿色出租车还是Uber打车。  


3区的动态和Uber打车的出现 

2013年8月绿色博罗出租车计划的引入,戏剧性的增加了外围区出租车的活动量。这里有一张纽约市西南部人口最稠密的布鲁克林区的出租车上客图,根据出租车的类型进行分类。 

 交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分

 图三、布鲁克林区每月的出租车上客量(基于纽约市出租车和轿车委员会的出行数据) 


 从2009年到2013年,这一时间段从曼哈顿迁移到布鲁克林的数量普遍增加,黄色出租车在曼哈顿的上客量几乎是它们在布鲁克林区上客量的两倍。  一 旦博罗出租车出现在市场,尽管绿色出租车快速代替了黄色出租车以至于截止到2015年6月,绿色出租车占据了布鲁克林区每月85万出租车上客量的70%, 而黄色出租车在布鲁克林区的上客量下降到它们2009年的比例。但是,黄色出租车在布鲁克林区仍然占据更多的下客量,因为很多人继续从曼哈顿乘坐出租车到 布鲁克林。但即使是在下客量中,绿色出租车正在缩小它们与黄色出租车之间的差距。  让我们把Uber打车加入到混战中。我 居住在布鲁克林,尽管我有时候乘坐出租车,但对我的信用卡对账单的检查发现,我乘坐Uber打车的次数是出租车的4倍。原来我并不孤单:在2014年6月 到2015年6月,布鲁克林区Uber打车的上客量增加了525%!截止到2015年6月我写这篇文章时,最新的数据显示, 在布鲁克林区Uber打车的上客量是黄色出租车的2倍多,Uber正快速接近绿色出租车的受欢迎程度。

  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图四、布鲁克林区Uber VS 出租车的上客量  

注意:Uber的数据仅包括2014年4月到2014年9月的,还有2015年1月到6月,因此图中有缺口。 曼 哈顿,不夸张地说,占了迄今为止纽约任何一个区出租车上客量的最大值,在任意给定的月份,全部的纽约出租车上客量中,将近85%的上客量发生在曼哈顿,而 且大部分这些上客量由黄色出租车承担。尽管绿色出租车被允许在上曼哈顿运营,它们几乎仅占黄色出租车活动量的一小部分。

  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图五、曼哈顿每月出租车上客量  


Uber打车也戏剧性地在曼哈顿急剧增长,从2014年6月到2015年6月上客量增加了275%,而出租车上客量在同一时期下降了9%。2015年6月Uber打车在曼哈顿的上客量比2014年6月增加了140万,而出租车上客量在同一时期少了110万。然而,即使Uber打车在2015年6月接送了将近200万曼哈顿乘客,Uber仍然只占曼哈顿总上客量的15%不到 

 交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图六、曼哈顿区Uber VS 出租车的上客量  


皇后区黄色出租车的上客量仍然比绿色出租车多,但那完全是因为拉瓜迪亚和肯尼迪机场在皇后区,这些机场主要受黄色出租车服务。尽管Uber打车在皇后区经历了和布鲁克林区相似的增长,而且黄色出租车深受机场上客量的影响,但Uber打车仍然滞后于黄色出租车和绿色出租车。 

 交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图七、皇后区Uber VS 出租车的上客量  


如果我们仅看拉瓜迪亚机场和肯尼迪机场的上客量,我们可以发现,Uber打车量已经上升至每月10万多的上客量,但黄色出租车仍然将80%的机场乘客运送入市区。


  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图八、拉瓜迪亚机场和肯尼迪机场的Uber VS 出租车上客量  

布鲁克斯区和斯塔顿岛的出租车乘客量显著较低,但你可以从GitHub上看到这两个区的图表。需要注意的是,几乎没有黄色出租车敢冒险去布鲁克斯区,同时Uber打车在斯塔顿岛已经比出租车更流行。  


4机场交通 

到达纽约市的一个机场需要多长时间?

 绝 大部分开往肯尼迪机场的车辆将毫无疑问地选择范威克快速路;摩西已经说明了建议提供一条从曼哈顿中心区到机场的直达线路的目的。但是设计范威克快速路是为 了在最适宜的条件下(好的天气、没有交通事故或者其他的延误)每小时运输2630辆车辆。即使唯一使用范威克快速路的交通是去往肯尼迪机场的交通,这条快 速路的通行能力仍然是不够的。  航空时代才刚刚开始:航空运输很显然将得到大发展。如果当交通量达到1万人/小时,范威克快速路不能从根本上解决去往肯尼迪机场的交通量,那么当交通量增长到1.5万人/小时?2万人/小时,将会发生什么呢?——罗伯特•卡罗,《权利经纪人:罗伯特•摩西和纽约的衰落》(1974)  一个藏在所有纽约人心中的话题:为了在3个区的机场之一坐上飞机,你需要提前多久叫出租车?当然这取决于很多因素:是否有严重的堵车?是否联合国在开会?你的出租车司机是否知道捷径来避免范威克上不可避免的瓶颈路段?  我 提取出所有周末去机场的出租车出行记录,计算了一天中每一小时内从每一个居民区到机场所花时间的分布情况。绝大多数情况下,最糟糕的去机场的时间在下午的 4点到5点。比如,在下午4点到5点从中城到肯尼迪机场的出租车出行所花时间的中位数是64分钟!在这段时间内10%的出行者的出行时间超过了84分钟 ——在这种情况下能坐上飞机是很幸运的。  如果你在上午10点到11点从中城出发去肯尼迪机场,你将面临出行时间中位数是38分钟的出行,有90%的可能性在50分钟内到达机场。  谷歌地图估计从布莱恩特公园到肯尼迪机场的公共交通的出行时间大约是一个小时,所以根据一天中的时刻、你距离地铁站的距离,你希望的公交出行时间可能比出租车短,同时你可以节省一大笔钱。  从其他居民区到达拉瓜迪亚和纽瓦克机场的情况是相似的。你可以通过下拉列表,来查看任意一个居民区到机场的出行时间的图表:  


交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图九、任意一个居民区到机场的出行时间的查询示意  从曼哈顿中城到拉瓜迪亚机场的出行时间 

交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十、中城到达拉瓜迪亚机场的出行时间  肯尼迪机场 


交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分

 图十一、中城到达肯尼迪机场的出行时间  纽瓦克机场 


交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十二、中城到达纽瓦克机场的出行时间  


5虎胆龙威3的现实情况 

布鲁斯•威利斯和塞缪尔•杰克逊能否在30分钟内从上西城到华尔街? 机 场并不是唯一遭遇交通拥堵的目的地。在虎胆龙威3中,麦克莱恩(威利斯)和沙斯•卡佛(杰克逊)需要在早高峰30分钟内从百老汇72街到华尔街地铁站,否 则炸弹将会爆炸。他们占用了一辆出租车,开着它疯狂地穿过中央公园,尾随一辆救护车,刚好准时到达(当然炸弹也爆炸了)。感谢出租车和轿车委员会的公开数 据,我们可以最终弄明白公众关注的这一事件的现实情况。  麦克莱恩和沙斯•卡佛在上午9点50离开上西城,所以我提取所有(符合下列情况的)出租车乘坐记录: 在上西城西70街到西74街区内的人口普查区上车在市中心区域包括华尔街2/3地铁站下车上车时间在工作日早上的9:20到10:20之间  制作了关于出行时间的直方图:

  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十三、百老汇72街到华尔街的出租车出行时间  


数 据集中有580条这样的出行记录,平均出行时间29.8分钟,出行时间中位数29分钟。这意味着一半的这样的出行实际上在指定的30分钟内完成!现在,我 们的英雄可能需要一些时间去征用一辆出租车,步行到地铁站台,因此,如果我们假设这些需要花费3分钟,开车需要花费27分钟,那么仅有39%甚至更少的出 行能够在27分钟内完成。当然,在电影里他们好像让这个任务变得很艰巨,几乎没有成功的可能性,而在现实中,这只是平均水平。这在电影里似乎是罕见的,但 在现实中实际上比在电影里更容易重现! 


 6天气是如何影响出租车和Uber打车的乘客数量 

2009年以来,同城出租车出行量最少的日子都很明显的与天气有关。出租车出行量最少的几天是: 星期日,2011年8月28日,飓风艾琳,28596次出行星期一,2010年12月27日,北美暴雪,69650次出行星期一,2012年10月29日,飓风桑迪,111605次出行 我 从国家气候数据中心下载了中央公园的每日天气数据,把它加入出租车数据来看我们能否知道一些其他关于天气和出租车乘客量之间的关系。这里有很多混淆变量, 包括季节性、博罗出租车造成的年增长、是否天气事件发生在周末或工作日,但看上去降雪对每日的出租车乘客量有显著的负面影响: 


 交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十四、降雪量VS 纽约市日出租车出行量  另一方面,仅仅是下雨好像不会影响一天总的乘客量:  


交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十五、降水量 VS纽约市日出租车出行量  


由 于Uber打车数据只有少数几个月是可得到的,分析天气对Uber打车乘客量的影响更加困难。Uber出名是因为它在高需求时间段内动态定价的收费策略, 而高需求时间段通常包括恶劣的天气。这里有2015年上半年少量雨天和下雪天的可获得的Uber打车数据,因此对于每一个雨天/下雪天,我计算了出租车的 总出行量和Uber打车的总出行量,将它们与前一周每一个服务日的平均出行量进行比较。比如,Uber打车在2015年1月26日的比率是69%,表示这 一天的Uber出行量是1月19日到25日之间日平均出行量的69%:

  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十六  尽管这些数据并不能最终证明什么,在2015年的每一个天气恶劣的日子,不管是下雨还是下雪,Uber打车相比于前一周日平均出行量的比率要大于出租车。部分原因可能是因为Uber车辆的数量仍然在增加,所以所有情况保持不变,我们希望Uber能够在每一天完成更多的出行,尽管总的出租车出行持续萧条。但对于Uber打车的比率每一天都在上升似乎不可能是随机因素,虽然我也没有理由做出任何有力的声明。是否是它的动态定价政策或其他的一些因素,相比于出租车载客能力,Uber打车的载客能力似乎更少受到糟糕天气的影响。

 

 7纽约的深夜出租车指数 

这 些天很多房地产公司提供了关于社区的一些信息:当地学校的排名、可步行性分值、当地企业的类型。我们可以利用出租车数据来得到一些推论,如通过查看每一个 人口普查区在晚上10点到凌晨5点之间(这一时间段我认为是深夜)发生的出租车上客量的百分比,来看城市的哪些部分夜晚外出比较受欢迎。  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十七、纽约市深夜出租车指数 


 有 些人想要住在一个不夜城,而其他的一些人更倾向于安静。根据深夜出租车指数,如果你在寻找一个拥有充满活力的夜生活的居民区,尝试选择威廉斯堡、布鲁克林 的绿点或布希维克。深夜出租车指数最高的人口普查区是在东威廉斯堡,这里76% 的出租车上客量发生在晚上10点到凌晨5点。如果你坚持住在曼哈顿,那么你的首选是下东区或者肉库区。 相反地,如果你想避免夜晚的骚动,向上东区或者上西城的住宅区移动(如果你还没有在哪里…)。从第五大道向东延伸到公园大道的深夜出租车指数最低,仅有5%的出租车上客量发生在深夜。 这里有一张包括所有人口普查区的地图,上面包括至少5万次的出租车上客,越暗的阴影表示越高的深夜出租车指数。 布鲁克林的夜晚:发生在东威廉斯堡的某个人口普查区的出租车上客量中,76%发生在晚上10点到凌晨5点之间,是城市中最高的比例。在上东区的一些人口普查区内不到5%的出租车上客量发生在深夜。


  8“桥和隧道”的聚集 

“桥和隧道”的名称,在文字层面上,是指任何一个通过一座桥或隧道到达曼哈顿的出行者,他们通常来自新泽西州、长岛或者其他外围区。通常这个名称被认为是一种侮辱,尽管外围城区正在兴起。好吧,我们就说时代就是这样。 为 了根据出租车数据估计“桥和隧道”的目的地,我分离出所有周六晚上6点到午夜12点之间的起点在宾夕法尼亚车站附近的出行记录。宾夕法尼亚车站是新泽西公 共交通和长岛铁路的登陆车站,因此,尽管并不是所有人都在周六晚上在宾夕法尼亚车站附近叫出租车,但这至少对于“桥和隧道”来说是一种合适的方式。下面的 居民区的地图显示了这些乘客在哪里下车:

  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十八、“桥和隧道”的出行目的地

(周六晚上起点在宾夕法尼亚车站的出租车乘客的下车情况)  对 于“桥和隧道”的出行来说,最受欢迎的目的地是默里希尔、肉库区、切尔西、中城。我们甚至可以更深层次的从个体出行层面来看,具体这些出行在哪里结束。下 面这张是默里希尔的地图,默里希尔是“桥和隧道”人群最受欢迎的目的地,每个点表示周六晚上起点在宾夕法尼亚车站的一次单程出租车出行:  

交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图十九、默里希尔的“桥和隧道”  


正 如上图显示的,在纽约市,默里希尔夜生活主要集中在第三大道,尤其从第32街延伸到35街。出租车数据显示周六晚上从宾夕法尼亚车站出发的出租车乘客多数 在这一区域下车,其他(下车量较多的)地方还包括,在第三大道上沿着第34街向东延伸,以及在第一大道和第二大道之间的第39街上的一个点。再做一些工 作,我们可能能够对这些坐标进行反向地理编码成实际的酒吧名称,也许可以更加科学的扭转《Complex》杂志的经典风格。


  9威廉斯堡的北部 

根据出租车的活动情况,2009年以来,整个纽约市最有优势的人口普查区位于威廉斯堡的北部,由北14街向北、贝里街向东、北7街向南和东河以西的区域包围:

  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二十、威廉斯堡的北部范围  


北部居民区以它的夜生活著称:72%的上客量发生在深夜。由于绿色博罗出租车项目的引入,很难比较各人口普查区、行政区之间2009年至2015年出租车的增长量,但是在这一段时间内,相比于城市内的其他片区,北部片区除了机场外总的出租车上客量有比较大的增长:  


交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二十一、威廉斯堡的北部出租车上客量 

 甚 至在博罗出租车项目开始的2013年8月之前,威廉斯堡的北部经历了出租车活动量的戏剧性的增长,从2009年6月仅有500人次/月增长到2013年6 月的1万人次/月,到2015年6月增长到2.5万人次/月。让我们来看一张反映出租车上客的动画地图,看能不能从中了解到什么信息:  

交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二十二、出租车上客地图动态分布图  

这张动画可以让我们精确的找到一些在过去几年内在北部开业的比较受欢迎的商家的精确位置,尤其是在威思大道上的商家: 2012年5月:威思酒店,威思大道和北11街2013年1月:Output夜店,威思大道和北12街2014年3月:Verboten夜店,威思大道和肯特大道之间的北11街 同时,我确信未来威廉韦尔和霍斯顿酒店的开发商希望北部不可阻挡的崛起仍在继续,但至少根据出租车数据,2014年中期以来上客量已经保持平稳,这也许预示着区域的受欢迎程度已经达到稳定? 


 10隐私问题 

出 租车和轿车委员会在2013年第一次发布公共的出租车数据,包括了Chris Wong的信息法自由权的申请,每一条出行记录的数据包括匿名的出租车车牌号码。实际上,像Vijay Pandurangan所描述的那样,解码每一条出行记录的实际车牌号码还是有可能的。这导致人们对数据隐私问题的大量讨论,出租车和轿车委员会将所有关 于车牌号的信息从最近发布的数据中删除了。 但 数据仍然包括精确的经纬度坐标,这些坐标可能被用来确定人们的居住地、工作地、社交活动地等。当我们(通过出行数据)观察威廉斯堡北部最热闹的新开的电子 俱乐部时,这是很有趣的,但当是人们的家时,就变得有些奇怪。纽约人口很密集,如果你在高峰期乘坐出租车从人口密集的一个区域到达另一个人口密集的区域, 比如从纽约中央车站到上东城,是不可能有独特的关于你出行的信息能够让别人弄清楚你住在哪里或在哪里工作。 但 如果你要去的某个地方和平常的出租车路线有一些不同,在这种情况下,你的出行可能是独一无二的,这也将揭示你的一些信息。比如,我不知道是谁拥有了东汉普 顿地区独特的Further Lane(豪宅区名字)的这些美丽的海滨房子中的一栋(确切的地址被编辑过,来保护无罪者):  



交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分


 图二十三、东汉普顿海滨房子  

但是我知道布鲁克林高地的准确位置,以及某个人(未必是拥有者)从叫出租车、乘坐了106.6英里、用信用卡付费400美元,其中包括110.50美元小费的时间。如 果出租车和轿车委员会真的想要删除潜在的个人信息,他们应该将整个数据集中的经纬度坐标删除。公共数据应该是让人们了解出租车系统是如何服务城市的不同区 域的,因此,出租车和轿车委员会可能应该提供人口普查区来代替坐标,或者仅仅是曼哈顿繁华区域的坐标,但提供能够唯一确定乘客家庭地址的坐标是让人感到过 分的。


 11投资银行家 

当我们在讨论汉普顿时,我们已经将威廉斯堡的时髦人士和默里希尔的“桥和隧道”包括在内,为什么不看一看出租车数据能够告诉我们关于投资银行家的什么信息,他们是纽约另一个独特的亚文化群体? 高盛投资公司很自愿地被拿来分析,因为它的总部在西街200号有一条专用车道,在谷歌地图上标记为“哈德逊河绿道”:  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二十四、哈德逊河绿道位置  


我们可以分离出所有下车点在这条车道的出租车出行记录来了解高盛投资公司员工——至少是乘出租车的人——早上从哪里来,什么时候到。下面这张图是工作日西街200号下车时间的直方图: 

 交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二十五、高盛投资公司在西街200号工作日出租车下客量  


出租车在早上5点开始下客,高峰时间在上午7-9点,下午下客的量越来越少。大概早晨后半段的下客量绝大部分是访客,与公司员工形成对比。如果我们把下客限制在早上10点前,下客时间的中位数是7:59,25%的下客发生在7:08之前。 北部的一些街区是花旗集团在格林威治街388号的总部,尽管这一建筑物似乎没有高盛投资公司那样的专用车道,我们仍然可以分离出直接在建筑物前下车的出租车出行数据,来看花旗集团的员工在早上几点达到:  

交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二十六、花旗集团在格林威治街388号的出租车下客量 

 花旗集团附近一些傍晚的下客量可能是为了去街对面的酒吧和饭店,但同样早上的下客可能绝大部分是花旗集团的员工。花旗集团早晨到达的统计数据可以和高盛投资公司相比:到达的中位数是早上7:51,25%的下车发生在7:03之前。  在高盛投资公司或花旗集团下车的乘客中主要的上车居民区是西村;切尔西-熨斗-联合广场 ;索和区-特里贝克区  因 此,怎么回事?是银行家们不居住在第14街(或者可能是第23街)?哎,仍然有大量的出行来自更远的拥挤的住宅区。同时来自住宅区的人们乘坐地铁、私人小 汽车或者其他交通方式也是很有可能的,因此,出租车数据绝不是决定性的。但是,很酷的小孩们已经在市区居住了一段时间,银行家们为什么要例外呢?  


12最后的感想 

正如我在前言部分提到的,这篇文章涵盖很多内容。即使如此,我感觉这些也仅仅触及到全部数据集中可得信息的表面。比如,你是否知道在2009年1月,仅有超过20% 的出租车打车费是使用信用卡结算的,但到2015年6月,这个比例已经增长到60%?

  交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二十七、纽约出租车支付方式:现金 VS 信用卡  

对于更贵的出租车出行,乘客们现在使用信用卡支付打车费的比例超过75%: 

 交通大数据︱纽约公开11亿条出租车和Uber原始数据,大家一块来分 

图二十八、总打的费用:现金 VS信用卡  


还有无尽的分析可以做,更多的数据集可以与出租车数据合并来进行深入的研究。花旗自行车项目发布了公共骑行数据;


我想知道是否一个公共自行车系统的引入会对出租车乘客量有重大的冲击?同时,也许我们能够量化费尔韦瑟的粉丝数量,通过利用洋基队和大都会队(纽约两支棒球队名)的记录来估计到达洋基体育场和花旗球场的出租车数量是如何波动的?  有 投资者使用卫星地图来做投资决策,比如,这个假期在一个百货商场的停车场有很多辆车,也许是时候去买(车)了。你可以对出租车数据做类似的事情:根据肯尼 迪机场捷蓝航空公司和拉瓜迪亚机场达美航空公司的交通量对比,看航空公司的市场份额是否在转移?对木材的需求是否与红钩区有多少人在装载宜家的家具相关?  我已经想象到人们将继续通过信息法自由权的申请来获得Uber数据,因此,我们将会很有趣的看到,Uber打车在纽约市政府增加的紧张气氛和媒体关于Uber新股首发的不断炒作这两方面的背景下,是如何运营的。  最 后,我在以前关于房利美和房地美(两家提供住房抵押贷款的金融机构)的文章中提到了“媒介数据革命”,同样的思想适用于这篇文章。不久以前,在日用笔记本 电脑上下载、加工和分析包含11亿条共267GB的原始数据几乎是不可能的。今天,不仅在苹果笔记本电脑上是可能的,越来越多开源的软件工具能够用来处理 这些数据。我偏向于PostgreSQL和R软件,这些都是实现的细节问题:数据分析的限制因素越来越多的不是计算功率问题,而是人类的好奇心和创造能 力。  

GitHub存储库 如果你对获得数据和自己分析比较感兴趣,或者仅仅只是想看一下更多的技术细节,转到GitHub存储库。

===========================================================

注:转载原文并无下载地址,以下为超图研究所整理完成!

--------------------------------------------------------------------------------------

版权所有:超图研究所(www.supermap.com)

Blog:    http://blog.csdn.net/chinagissoft

QQ群:16403743

宗旨:专注于"GIS+"前沿技术的研究与交流,将云计算技术、大数据技术、容器技术、物联网与GIS进行深度融合,探讨"GIS+"技术和行业解决方案

转载说明:文章允许转载,但必须以链接方式注明源地址,否则追究法律责任!

--------------------------------------------------------------------------------------


===========================================================

13 数据下载 (点击图表Yellow或者Green直接下载

数据描述数据集包括 2014 年选择 2015 年完成黄色绿色出租车纽约所有旅行旅行记录记录包括捕获接机字段日期/时间,接送地点 行程距离 逐项票价 类型 付款类型以及驱动程序报告乘客


数据结构(可点击)

Yellow 
Green


勘误表

2015/9/22-TPEP  LPEP 的旅行数据 Csv 今年 1 月 2015 年 6 月更新包括一个领域[improvement_surcharge] 列出票价覆盖出租车改进附加费冰雹制服改进附加费逐项部分所有出差帮助基金的士 SHLs 2015 年 1 月 1 开始辅助功能 $0.30 附加费所有的 TPEP  LPEP 的旅行数据文件上载向前包括领域


2015

January Yellow Green
February Yellow Green
March Yellow Green
April Yellow Green
May Yellow Green
June Yellow Green
July Yellow Green
August Yellow Green
September Yellow Green
October Yellow Green
November Yellow Green
December Yellow Green

2014

January Yellow Green
February Yellow Green
March Yellow Green
April Yellow Green
May Yellow Green
June Yellow Green
July Yellow Green
August Yellow Green
September Yellow Green
October Yellow Green
November Yellow Green
December Yellow Green

2013

January Yellow  
February Yellow  
March Yellow  
April Yellow  
May Yellow  
June Yellow  
July Yellow  
August Yellow Green
September Yellow Green
October Yellow Green
November Yellow Green
December Yellow Green

2012

January Yellow  
February Yellow  
March Yellow  
April Yellow  
May Yellow  
June Yellow  
July Yellow  
August Yellow  
September Yellow  
October Yellow  
November Yellow  
December Yellow

2011


January Yellow  
February Yellow  
March Yellow  
April Yellow  
May Yellow  
June Yellow  
July Yellow  
August Yellow  
September Yellow  
October Yellow  
November Yellow  
December Yellow

2010


January Yellow  
February Yellow  
March Yellow  
April Yellow  
May Yellow  
June Yellow  
July Yellow  
August Yellow  
September Yellow  
October Yellow  
November Yellow  
December Yellow

2009


January Yellow  
February Yellow  
March Yellow  
April Yellow  
May Yellow  
June Yellow  
July Yellow  
August Yellow  
September Yellow  
October Yellow  
November Yellow  
December Yellow

阅读更多
换一批

没有更多推荐了,返回首页