2019疫情海量数据挖掘分析与可视化实战(源码数据见附件)

海量数据挖掘分析与可视化实报告

课程名称:海量数据挖掘分析与可视化实战

实训学期  2021-2022学年第二学期      

实训时间:        第16周               

专    业    数据科学与大数据技术      

    级:     19大数据四班             

实验目的和与要求

  • 掌握数据预处理技术过程
  • 掌握数据综合性分析流程
  • 掌握数据挖掘分析流程
  • 掌握数据可视化技术方法

实验总体要求如下:

所有流程附上处理代码和处理完成截图

    

  • 数据预处理与导入

1、2019_nCoV_data.csv是2020年1月-3月世界新冠疫情的数据,要求对2019_nCoV_data.csv进行数据预处理做以下操作,要求

1.Sno编号列没有用,需要删除

2.部分国家对应的地区为NAN,需要填充为空白字符串

3.部分国家/地区,受感染人数为0,也被列在表格中,需要删去

4.查看受影响的国家/地区的数量,Country一列中将'Mainland China', 'Hong Kong' , 'Macau',  'Taiwan' 等统一修正为'China';另外需将'Korea, South'改为'South Korea'。

2.对于DXYArea.csv也需要进行数据预处理,要求做以下操作

1.由于数据国内省级行政区中香港、澳门、台湾的数据都是按省统计的,因此需要将这三个地区的province_confirmedCount、province_suspectedCount、province_curedCount、province_deadCount的数据赋值到city_confirmedCount、city_suspectedCount、city_curedCount、city_deadCount。

2.countryEnglishName一列中将 'HongKong' , 'Macao'等统一修正为'China' 

3.将updateTime转换成date格式(输出为该数据的新列updateTime1,也就是只保留日期部分)。

4.因为大部分城市都没有加“市”字,所以要把直辖市的下属区的“区”字去掉;还有一些没有变化规律的城市名字,可以通过city_rename的字典进行修改。

3、观察处理后的2019_nCoV_data.csv发现,这个原始表格每天会把最新的数据更新在表格最后,而且并不是每天每个国家都会更新数据,所以需要筛选出每个国家的最新数据

(1)将Date转化为datetime格式,方便操作后面进行时间的比较。

  1. 按国家+城市字段分组,方便进行时间上的筛选。

4、通过以上处理,经查看后又发现一个问题,比如Australia,一开始是以国家为单位报数据,之后又分成小区域报数据,会导致计算重复,所以要删除这部分数据;但也不能直接删,因为不知道有多少国家的数据有这个问题。

(3)筛选出国家对应的城市字符串为空,且该国家下的城市(包括空字符串)数量大于一 的数据,删除这些数据。

5、对预处理后的DXYArea.csv数据也需要进行最新数据提取工作

  • 二、数据分析与挖掘阶段

1.普通数据分析

1.根据2019_nCoV_data.csv预处理后的数据,查看2020年1月-3月最新数据中,除中国外世界各国总感染数据,找出前top10的国家

2.根据处理后的DXYArea.csv查看全国各省确诊病例数量,统计相关信息。

 

3.根据处理后的DXYArea.csv统计全国总体累计趋势。

4.根据处理后的DXYArea.csv,找出你关注的几座城市统计各城市总体累计趋势。

5.根据处理后的DXYArea.csv,自选我国的一个省,查看该省内各市的确诊比例。

6.根据处理后的DXYArea.csv,筛选除湖北省外其他各地区确诊病例数量,找出前top10的城市,统计相关信息。

7.筛选除湖北省外其他各省确诊病例数量,找出前top10的省份,统计相关信息。

2.数据挖掘阶段

8.请预测2020年6月份哪些国家的确诊人数最多、死亡人数最多,分别是多少。

 

  • 三、疫情数据可视化大屏制作

(1)选取6个及以上分析指标数据进行疫情数据可视化大屏制作;

(2)利用Javaweb或Flask/Django框架等+Echarts实现以上可视化。

 

(实验中出现的问题及解决方法)本次实验数据预处理部分做着较为吃力,时间过长遗忘知识点太多,通过复习课本和在网上查阅资料等途径边学边用解决了数据处理难等问题,攻克了一个又一个的知识盲点,扫平了一个又一个的知识盲区,在可视化大屏制作中我也学到了很多有用的知识,巩固了课本知识点,锻炼了自己的动手能力,丰富了自己的学识,帮助自己在大数据的学习中更上一层楼。

  • 1
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
基于Spark的疫情数据分析大屏可视化源码通常包括以下几个主要部分。 1. 数据采集:使用Spark提供的数据处理功能,从不同的数据源(如政府公开数据、社交媒体等)采集疫情相关的数据。通过Spark的强大分布式计算能力,可以快速有效地处理大规模数据。 2. 数据清洗与处理:对采集到的原始数据进行清洗,去除无效数据、处理缺失值和异常值等。使用Spark的数据处理和转换功能,进行数据预处理,使数据适合后续分析可视化。 3. 特征提取与分析:对清洗后的数据进行特征提取和分析,通过Spark MLib等机器学习库提供的各种算法,进行数据挖掘、聚类、分类、预测等分析。这些分析结果可用于后续的可视化展示。 4. 可视化展示:使用Spark提供的可视化工具(如Spark SQL、DataFrame等),结合前端的Web开发技术(如HTML、CSS、JavaScript等),将分析结果以图表、地图等形式展示在大屏上。可以使用开源的可视化库(如D3.js,Echarts等)来帮助制作各种图表和地图。 5. 实时更新:通过Spark Streaming等实时数据处理技术,将实时的疫情数据快速更新到大屏上。可以设置定时任务,定期更新数据,保证大屏的数据始终是最新的。 以上就是基于Spark的疫情数据分析大屏可视化源码的主要内容。通过Spark的分布式计算和数据处理能力,结合可视化技术,可以将疫情数据高效地处理和展示在大屏上,为相关人员提供有用的信息和决策支持。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

刘新源870

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值