本次课程设计课题为北美停车数据集可视化,对北美洲难以停车的车辆类型进行分析,同时以经纬度对北美洲存在的车辆数目使用气泡图可视化,使用线性相关图查看各个字段是否存在相关关系以及其他可视化和分析等。

1. 数据结构各属性介绍

本次课程设计课题为北美数据集可视化,数据来源为爱数科。数据集部分截图及字段说明如下:

图1. 1数据集部分截图

数据集字段名称解释如下:

图1.2 数据集字段名称

数据量:共4751条数据,包含30个字段

二、数据预处理过程

1. 预处理思路

本次课程设计课题为北美数据集可视化,北美数据集包含4751条数据,30个字段,首先需要对所有数据检查是否为空,对一些空字段做删除修改的操作,对没有实际意义的字段进行删除,查看数据集是否存在聚类、线性相关等关系,将一些数据集通过函数计算获取需要的数据。

2. 预处理过程及结果

(1)首先使用Python查看数据是否存在空值,将数据导入Python中,使用pd读取数据,然后根据函数isnull().sum()计算数据的缺失值。代码如图2.1所示。

图2.1 计算空值的代码

图2.2 存在空值的数据

(2)利用kettle将不需要的字段删除,使用计算器计算出北美洲各维度所有的车辆,通过Excel输出保存到F:\可视化大作业\北美数据集干净版,具体流程见图2—3所示。

图2.3 kettle操作流程

(3)使用Excel表格中的内置函数将各种类型车难以停车的比例计算,结果为1的保留1,结果不为1的保留0,将计算结果保存到干净数据4.1csv文件中。处理后的数据如图2-4所示。

图2.4 干净数据4.1csv文件

(4)使用kettle软件将字段pandaun为1的结果保留,将字段为0的删除,剩余数据为3500条,同时通过Excel输出将文件保存到F:\可视化大作业\ile.xls中,具体操作流程如图2-5所示。

图2.5 kettle操作流程

(5)使用kettle软件,利用计算器分别计算出三个国家的在各个维度难以停车类型的数据,加拿大的数据保存在干净数据4.1csv中,美国的数据保存在美国数据.csv中,墨西哥的数据保存在墨西哥1.0csv中。具体操作流程如图2-6所示。

        

图2.6 kettle流程图

(6)使用Excel内置函数计算出三个国家各种类型难以停车的数量和。将计算结果保留在各个数据文件中。如图2-6所示

图2.7 美国数据.csv文件

三、数据分析及可视化

1. 数据分析思路

本次课程设计课题为北美数据集可视化,对北美洲难以停车的车辆类型进行分析,同时以经纬度对北美洲存在的车辆数目使用气泡图可视化,使用线性相关图查看各个字段是否存在相关关系,以及对北美洲三个国家的难以停车的车辆数目做条形可视化,分别查看三个国家最难以停车的类型,以及对北美洲三个国家所拥有的车辆使用环形图查看比例,对其中比例最大的国家进行进一步分析,对其各种难以停车的车辆类型使用经纬度进行地图可视化分析,使用k-mens聚类算法对经纬度分析,北美洲有三个国家所以类别为三,k-means 算法是首先从含有n个数据对象的数据集中随机选择K个数据对象作为初始中心。然后计算每个数据对象到各中心的距离,根据最近邻原则,所有数据对象将会被划分到离它最近的那个中心所代表的簇中。接着分别计算新生成的各个簇中数据对象的均值作为各簇新的中心,比较新的中心和上一次得到的中心,如果没有发生变化,则算法收敛,输出结果。

2.数据分析过程

(1)以经纬度为横纵坐标将平均停车时间以散点图的形式展示出来,以此查看北美洲各个区域是否存在数据,代码如3-1所示:

图3.1 平均停车时间气泡图代码

(2)对所有数据使用线性图查看存在的相关性,核心代码如3-2所示:

图3.2 线性关系图

(3)通过数据预处理我们得到北美洲三个国家目前拥有车辆的数量总和,对三个国家车辆的的数量做一个简单的环形图,进而查看其比例,核心代码如3-3所示:

图3.3 汽车数量环形代码

(4)本文重点研究的是北美洲的停车困难问题,所以对其停车难的类型以及数量重点研究,所以使用条形图可以清晰明了的查看各个国家难以停车的种类和数量,核心代码如图3-4所示:

                                                                      图3.4 条形图代码

(5)使用k-means算法对经纬度和汽车数量进行研究,将其分成三类,其中对数量最大的一类进行研究,核心代码如3-5所示:

图3.5  k-means算法代码

(6)通过k-means算法将其分为三类,发现美国占比的权重远大于其他国家,所以对美国进一步研究,使用环形图查看美国各个难以停车车辆类型的数量及比重,核心代码如3-6所示:

图3.6 美国难以停车类型数量环形图代码

(7)对其难以停车类型的数量进一步分析,使用地图可视化查看美国难以停车车辆类型主要分布在哪一个地区,具体代码如3-7所示:

图3.7 地图可视化代码

3.数据可视化展示及结论 

 可视化图表一:平均停车时间气泡图

图3.8 平均停车时间气泡图

此图的目的并不是查看北美洲个地区平均停车时间,而是为了查看数据集对北美洲各个地区难以停车数据是否均有收集到,由图3.8可以明显的看出收集的数据集较为完整,涵盖了北美洲大部分地区,所以由此数据集得到的结论才会有一定的科学性、准确性和完整性。

可视化图表二:线性关系图

图3.9 线性关系图

对于得到的数据第一步不知道具体如何分析,可以查看其相关性,如有相关性则可以对其进一步分析得到结论,如图3.9所示,本数据集两两之间没有具体相关性,所以此图无法对本数据集提供更好的角度来进行分析以及下一步研究。

可视化图表三:汽车环形数量比例图

图3.10 汽车环形数量比例图

众所周知美国是世界上第一大经济体,是西方资本国家的领头羊,拥有3.3亿人口,人口数量排在世界第三位,加拿大人口数量为3800万人口,墨西哥为1.3亿,从图3.10可以明显的看出美国的汽车数量比墨西哥和加拿大汽车数量之和都要多出相当大的一部分,而墨西哥的人口数量远大于加拿大可其汽车数量在图3.10中却微乎其微,如果以此为依据,可以明显的看出墨西哥的经济实力远远低于其他两国,美国的实力在北美洲独冠(数据来源于www.dgchijin.com/16699.html)。

可视化图表四:北美洲停车困难数量图

图3.11 北美洲停车困难数量条形图

由图3.11可以看出,墨西哥的数量属实少无法在条形图中表达其数据,而在美国和加拿大两国家难以停车的数量中都是轻卡的数量比其他类型车辆数量多一点,中卡比其他类型车辆数量少,轻卡使用主要集中在城市及其周边,以城市物流配送为主,而城镇化是拉动城市物流配送的长期根本性因素,据此可以看出美国和加拿大两个国家城镇化明显,同样的两个国家中卡难停车数量都是最少,主要是中卡的地位属实尴尬,一些重量级货物可以由重卡运输,轻量级货物则可以使用轻卡运输,导致其位置地位比不上轻卡和重卡。

可视化图表五:K-means算法聚类图

图3.12 K-means算法聚类图

由图3.12可知使用k-means算法将北美现有车辆数目聚类,将车辆数据聚为3类,我们可以明显的看出,k-means算法将车辆数量划分为低中高三等,最高等为绿色散点图,出现在经度-70到-120,纬度30到45之间,这一经纬度为美国的经纬度所在区间,选取数量大的基数进一步研究再进行仔细划分。

可视化图表六:美国难停车比例环形图

图3.13 美国难停车比例环形图

图3.13是美国地区难以停车种类数量的环形图,从图中我们可以看出轻卡占比最大,中卡占比最少,其他种类难以停车的数量相差无几,从而可以推断出美国是一个综合性大国,其没有明显的短板,轻卡难以停车说明其停车位置最少,所以需要适当的增加其停车位,但是美国的国土面积广阔,只是增加其轻卡停车位有一点过于轮廓,需要再进一步对其研究,增加停车位需要进一步精确,从而可以用最小的代价获得最大的利益。

可视化图表七:多功能车难以停车数量分布图

图3.14 多功能车难以停车数量分布图

对美国多功能车难以停车数量进一步研究我们发现,其分布具有明显的区域性,在美国的东西海岸线分布最广,其中西部的多功能汽车难以停车的位置偏南一点,东部则更为密集一点,整个海岸线均有分布,而在美国的南部则最明显,多功能难以停车的数量最多,所以综上所述建议可以在美国的南部可以多增加一些多功能汽车的停车位置,将其设为试点进一步推广研究,如果可以达到很好的效果则在全国范围内进一步推广。

可视化图表八:汽车难以停车数量分布图

图3.15 汽车难以停车数量分布图

在美国几乎每个家庭都会有一辆车,而汽车难以停车数量越多说明当地的经济实力越雄厚或者是基础建设不够发达,从图3.15可以明显的看出,难以停车集中在美国的一些较为出名的大城市中,其中以美国的洛杉矶、华盛顿和纽约较为突出,这些地段属于寸土寸金的地方,修建大量停车位置显然有点不合经济效益,但是存在大量的汽车难以停放,会造成交通拥堵甚至更加可怕的交通事故发生,可以建议修建大量的地下车库,这些地方不缺少经济的支持,只是缺少空间,地下车库则可以更好的适应。

可视化图表九:轻卡难以停车数量分布图

图3.16 轻卡难以停车数量分布图

轻卡的难以停车分布与多功能车的难以停车分布较为类似,都是主要集中分布在东海岸线以及西海岸线的南部,其中轻卡的难以停车分布数量最多的则是位于美国的南部,所以可以适当的增加其轻卡的停车位,如果轻卡难以停车数量得到减缓,则可以在全国范围内进行进一步推广。

可视化图标十:重卡难以停车数量分布图

图3.17 重卡难以停车数量分布图

重卡难以停车分布在全国范围内普遍可谓遍地开花,这是因为其重卡的体积较大,相对于其他车辆难以停车,建造停车位的成本又高,其中重卡难以停车数量分布主要集中在加利福尼亚州,加利福尼亚州又是美国老牌工业强州,而重卡又是其主要运输工具,所以建议在加利福尼亚州建造大量的重卡停车位,铺助其它措施,吸引重卡车主前往加利福尼亚州,进而推动其经济建设。

可视化图标十一:中卡难以停车数量分布图

图3.18 中卡难以停车数量分布图

中卡的地位略尴尬与轻卡和重卡,但是其存在就合理,从全图范围来看,中卡难以停车数量最多的处于美国东南部的阿拉巴马州,阿拉巴马州(Alabama)是美国东南部的一个州,北与田纳西州接壤,东与佐治亚州接壤,南与佛罗里达州和墨西哥湾接壤,西与密西西比河接壤。长期以来,阿拉巴马州一直是工业化程度最高的城市之一,这也同时说明了该地区中卡难以停车的原因之一,建议在该地区加大中卡停车位的建设,持续发挥工业化优势,拉动经济的发展。

可视化图表十二:其他车难以停车数量分布图

图3.19 其他车难以停车数量分布图

从图3.19可以看出其他车难以停车数量在美国地图上可谓遍地开花,其中加利福尼亚州、德克萨斯州以及东海岸线最为集中,可以选取东海岸线的佛罗里达州作为其他车辆难以停车的试点,加大其他车辆停车场的建设,同时密切关注其他地区的停车难问题,若弗罗里达州的停车问题得到改善,则可以进行下一步其他地区的建设。

四、技术难点及解决方案

    问题一:在绘制条形图的时候单个条形图比较好绘制,但是复合型条形图却一直很难绘制,后一个数据框中的数据会不断覆盖前一个数据,数据效果得不到很好的展示。

解决方案:通过查询CSDN得知,在绘制复合型条形图时需要设置多个条形绘图区和多个数据框,数据框和添加的数据要对应,同时数据框要与设置条形绘图区语句对应,否则后一个数据将前一个数据覆盖。

问题二:对k-means算法理解不够透彻,在使用k-means算法对数据集训练以及可视化中,代码一直不间断的报错。

 解决方案:通过查询得知k-means算法(k-均值聚类算法)是一种基本的已知聚类类别数的划分算法,不同于分类算法的已知类别数据,属于无监督算法的一种。它是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。它是使用欧氏距离度量的(简单理解就是两点间直线距离,欧氏距离只是将这个距离定义更加规范化,扩展到N维而已)。它可以处理大数据集,且高效。它的输入自然是数据集和类别数。聚类结果是划分为k类的k个数据集。

五、待改进的问题

本次课程设计还有很多需要改进的地方,其中最大的问题就是地图可视化中的地图还可以更加简单明了以及美观,地图可视化是研究经纬度可视化中最简单清晰的一种方法,可以带给人直接的视觉信息,本次地图可视化只是有一个大概的区域位置,没有达到预期效果,同时在接下来的学习中,地图可视化需要进一步研究使阅读者可以更加快速直观的获得有效信息。

六、设计总结

本次课程设计是对北美停车数据集可视化分析,其中我选用的是k-means算法,因为数据集中没有明显的分类,所以使用k-means算法,可以通过聚类使数据集自动分类,在分类后我选择数据最高的为研究对象,同时借助地图可视化分析来对其具体研究同时提出建议,本次课程设计使我感受良多的是多门学科的交叉使用,我们收集到的第一手数据,很难直接使用进行可视化操作,需要用到数据清洗的各种方法和技术,尤其是数据清洗中kettle和excel的使用,对于数据的处理极大的方便了这次课设所需的数据处理。通过本次课设,也让我对于未来大数据分析即可视化有了简单处理的思路,在我看来初学者应该知难而上,不怕困难,每一次挫折都是我们未来的宝贵财富,当不断的面对困难直到战胜困难我们的收获不仅仅是克服了技术上的难关,更是为之后遇到再大的问题可以从容面对而不是逃避。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
### 回答1: Hive是一款基于Apache Hadoop的数据仓库工具,具有高扩展性和容错性。通过Hive可以方便地进行数据分析,包括对电影数据分析可视化。 针对电影数据分析,可以将数据导入Hive表中,然后使用Hive SQL语言进行数据查询和聚合。例如,可以通过Hive查询每个月的电影票房收入、不同类型电影的产量等信息,也可以对电影评分数据进行分析,了解用户对电影的喜好倾向,找到受欢迎的电影和顶级演员等信息。 通过Hive Tableau等进行可视化分析可以更加直观地展示数据。例如,在Tableau中可以使用电影票房收入、电影类型等信息建立热力、堆积柱状或散点表,展现电影市场和受众的状况。还可以建立电影推荐模型,利用机器学习算法,将电影数据和用户喜好进行匹配,从而给用户推荐最适合自己观看的电影。 总之,基于Hive的电影数据分析可视化可以帮助我们更好地了解电影市场及用户信息,从而为电影行业的决策和发展提供有利的支持。 ### 回答2: 基于hive的电影数据分析可视化是一种利用大数据技术来探索电影市场的方法。通过对海量电影数据进行收集、存储和分析,可以找出电影市场的趋势及热点,为电影产业提供决策支持。 在这个过程中,hive数据库是执行数据清洗和预处理的关键工具。它能够使用Hadoop集群处理大量的电影数据,并将结果存储在Hadoop服务器上,以便在需要时方便地进行查询和分析。 电影数据分析通常涵盖电影票房、受欢迎程度、观众反应和地域分布等多个方面。在hive中,可以通过SQL语句进行查询,比如:找出某个月份内最受欢迎的五部电影、查看某个地区电影票房排名、分析电影类型在不同地区的流行程度等。 可视化是另一个重要的方面,通过采用数据可视化工具,可以将hive数据库中的数据形的方式展示出来。这种方法可以使数据变得更加生动且易于理解,通过可视化表或热力等形式,帮助用户更清晰地了解电影市场的情况,为电影行业的业务和市场调研提供有力支持。 总之,基于hive的电影分析可视化是应用大数据技术来探索电影市场的一种新型方式,它能够让我们更深入地理解电影市场的情况,为电影产业的决策者提供更详尽的数据支撑,对于推动电影行业的发展具有重要的意义。 ### 回答3: Hive是一种流行的分布式数据存储和查询系统,它提供了一个类似于SQL的查询语言,用于处理大规模数据集。基于Hive的电影数据分析可视化是一种有效的方法来了解电影产业的趋势和偏好。通过使用Hive查询语言分析电影数据集使用可视化工具呈现结果,可以从多个维度了解电影市场的特点。 首先,我们可以使用Hive查询语言对电影数据进行初步的数据清洗和过滤,例如去除无用字段和重复数据。然后,我们可以使用Hive的聚合函数来计算电影数量、票房总额、平均票价等重要指标,并利用Hive的窗口函数来计算每个电影类型和地区的排名。从排名结果中我们可以发现用户对不同电影类型和地区有着不同的好恶。 其次,通过使用可视化工具如Tableau、PowerBI等,我们可以将Hive查询结果转换为各种表,如柱形、折线、地等,以更加生动形象地展示电影市场的情况。例如,可以制作表以显示电影类型的销售情况、票房收入的时间趋势以及地域销售情况。 最后,从分析结果中可以发现一些有趣的趋势,如好莱坞大片和爆笑喜剧通常是最受欢迎的电影类型,而中国内地和北美是电影销售最为火爆的区域。通过层层拆解和可视化电影数据,可以对电影市场有全面了解,有助于电影从业人员做出更明智的决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

司空良

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值