大数据期末课设

一. 系统的运用背景和实际意义

新冠肺炎疫情传输在全社会范围内造成了巨大影响,生命财产损失不计其数。从掌握疫情基本规律的现实意义出发,本项目基于公开的疫情数据,从可视化的角度对疫情情况进行分析。

1.有效支持科学判断

大数据可视化能将大量的数据信息以生动形象的展示方式呈现在观众面前,在经过整体的数据汇总、分析后,大众能快速从大数据展示中,得出初步的判断,从而加速决策者的处理效率。

2.信息的有效传递

在大数据可视化技术的解决下,数据信息所面向的不仅是决策者,也能向大众进行授权展示,我们可以通过大数据可视化,了解到全国各地、世界各地的感染人数,从而判断出高、低风险区域,以此了解疫情的变化。

3.加速指令执行

大数据可视化将各项信息进行汇总、处理,以形象的展示形式,呈现给大众,在此之中,能加速用户指令的执行,实现高效、快速的应用。

以上便是大数据可视化在疫情中使用的作用,随着数据信息的越发复杂,大数据可视化技术的应用也变得越发广泛,在各大行业领域中,大数据分析都是推动产品、行业发展、进步的重要因素之一,而我们也正式步入了数字信息时代。

二. 系统的功能需求

(1)可视化美国截止每日的累计确诊人数和累计死亡人数。

(2)可视化美国每日的新增确诊人数。

(3)可视化美国每日的新增确诊人数新增死亡人数。

(4)可视化截止5.19日,美国各州的累计确诊人数和死亡人数。

(5)可视化截止5.19日,美国确诊人数最多的十个州。

(6)可视化截止5.19日,美国死亡人数最多的十个州。

(7)可视化截止5.19日,美国确诊人数最少的十个州。

(8)可视化截止5.19日,美国死亡人数最少的十个州。

(9)可视化截止5.19日,全美和各州的病死率。

三. 系统使用的大数据技术

本系统使用的大数据技术主要包含Hadoop,Spark和Echarts。

Hadoop

Hadoop在2006年开始成为雅虎项目,随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构,具有多个组件:Hadoop分布式文件系统(HDFS),它将文件以Hadoop本机格式存储并在集群中并行化; YARN,协调应用程序运行时的调度程序; MapReduce,这是实际并行处理数据的算法。Hadoop使用Java编程语言构建,其上的应用程序也可以使用其他语言编写。用一个Thrift客户端,用户可以编写MapReduce或者Python代码。

除了这些基本组件外,Hadoop还包括Sqoop,它将关系数据移入HDFS; Hive,一种类似SQL的接口,允许用户在HDFS上运行查询; Mahout,机器学习。除了将HDFS用于文件存储之外,Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。

Spark

Spark是一个较新的项目,在2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目,专注于在集群中并行处理数据,一大区别在于它在内存中运行。

类似于Hadoop读取和写入文件到HDFS的概念,Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行,Hadoop集群可用作数据源,也可与Mesos一起运行。在后一种情况下,Mesos主站将取代Spark主站或YARN以进行调度。

Echarts

ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9 /10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。

支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达图)、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,同时提供标题,详情气泡、图例、值域、数据区域、时间轴、工具箱等7个可交 互组件,支持多图表、组件的联动和混搭展现。

四. 项目开发工具和部署流程

项目的开发工具包含:

操作系统:Ubuntu18.04(或Ubuntu16.04),

Hadoop版本2.7.1,

Spark版本:2.4.0,

JDK版本:1.8,

第三方库pyechrts和python

编辑工具Visual Studio Code。

项目的部署流程:

获取数据集:

本实验的数据集counties.csv,是美国各洲/县从2020-1到2020-5将近4个月的新型冠状疫情数据,包含五个字段,分别是date 日期 2020/1/21;state 州 Washington;county 区县(州的下一级单位) Snohomish;cases 截止该日期该区县的累计确诊人数 1,2,3…;deaths 截止该日期该区县的累计死亡人数 1,2,3…。

实验步骤:

1.准备工作

(1)启动虚拟机virtualbox;

(2)选择用户hadoop,输入密码hadoop,登录到ubuntu系统;

(3)在宿主机和虚拟机之间建立共享文件夹share,绑定windows下的路径D:\share,挂载到ubuntu系统下的/home/share目录。并将数据集counties.csv放到windows路径下share文件夹下。

(4)在终端下输入命令hadoop@dblab-VirtualBox:~$ sudo mount -t vboxsf share /home/share/,即可查看本实验中要用到的文档counties.csv。

1.2 从本地Linux中上传文件到HDFS

(1)启动hdfs服务

hadoop@dblab-VirtualBox:/usr/local/hadoop/sbin$ ./start-dfs.sh

检查hdfs是否成功启动

hadoop@dblab-VirtualBox:/usr/local/hadoop/sbin$ jps

(2)上传文件到HDFS系统中

hadoop@dblab-VirtualBox:/usr/local/hadoop/bin$ ./hdfs dfs -put /home/share/counties.csv /user/hadoop/

1.3 pyspark编程

1.3.1 编写python文件covidAnalyze.py

(1)读取文件生成DataFrame

1.3.2 运行上述covidAnalyze.py文件

spark-submit covidAnalysis.py

1.4 数据可视化

(1)第三方库pyecharts安装

首先安装pip3

hadoop@dblab-VirtualBox:~$ sudo apt install python3-pip

hadoop@dblab-VirtualBox:~$sudo pip3 install pyecharts==0.5.11 -i https://pypi.douban.com/simple/

先从python3.5升级到python3.6

(2)安装pyecharts

(3)对获取的数据进行可视化

五. 项目的运行结果截图

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1.项目代码功能经验证ok,确保稳定可靠运行。欢迎下载使用!在使用过程中,如有问题或建议,请及时私信沟通,帮助解答。 2.主要针对各个计算机相关专业,包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕计、大作业、初期项目立项演示等用途。 数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip 数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip 数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip数学建模案例与技术(DUFE大数据实验 程)--期末源码.zip
Hadoop是一种开源的分布式计算平台,可以用于大规模数据的存储和处理。它最初是由Apache软件基金会开发的,目的是为了应对大数据时代的挑战。 Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)和Hadoop MapReduce。HDFS是一种高可靠性、高容错性的文件系统,它可以将大规模数据分布存储在集群中的多个节点上。通过将数据划分成不同的块并分布在不同的节点上,HDFS可以实现数据的并行读写,提高数据存储和访问的效率。 Hadoop MapReduce是一种编程模型,用于将大规模数据的处理任务分解成多个小任务并在分布式计算环境中并行执行。MapReduce的核心概念是将任务分为两个阶段:Map和Reduce。Map阶段将输入数据进行处理和转换,产生中间结果。Reduce阶段将中间结果进行整理和归约,生成最终结果。通过并行执行多个Map和Reduce任务,Hadoop可以高效地进行大规模数据处理。 除了HDFS和MapReduce,Hadoop还有其他一些重要的组件,如Hadoop YARN和Hadoop Common。Hadoop YARN是一个资源管理系统,负责协调集群中的计算资源,并为不同的应用程序提供资源调度和管理功能。Hadoop Common是Hadoop的公共库和工具集,提供了各种与Hadoop相关的功能和工具。 Hadoop具有许多优点,例如可扩展性强、容错性高、成本低廉、易于使用等。它可以帮助企业和研究机构处理大规模数据,并从中提取有价值的信息。随着大数据的不断增长和发展,Hadoop在各个行业中得到广泛应用,为数据分析和决策提供重要支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值