世界新冠疫情数countrydata.csv 表，实战分析

最新推荐文章于 2023-02-24 21:44:19 发布

大数据与云计算开发者Cd

最新推荐文章于 2023-02-24 21:44:19 发布

阅读量2.5k

点赞数 1

文章标签： hbase spark hive

本文链接：https://blog.csdn.net/qq_56795768/article/details/122355484

版权

本文介绍了如何在Hadoop环境下使用Hive和Spark进行全球疫情数据的统计分析，包括统计每个国家的累计确诊人数、全球总感染人数、各大洲每日新增和累计确诊最多的国家，以及HBase数据表的创建和数据映射。

摘要由CSDN通过智能技术生成

一、环境要求

Hadoop+Hive+Spark+HBase 开发环境。

四、功能要求

1.数据准备请在 HDFS 中创建目录/app/data/exam，并将 countrydata.csv 传到该目录。

2.在 Spark-Shell 中，加载 HDFS 文件系统 countrydata.csv 文件，并使用 RDD 完成以下统计计算。

[root@gree2 exam]# hdfs dfs -put ./countrydata.csv /app/data/exam


scala> val countryRdd=sc.textFile("/app/data/exam/countrydata.csv")

①统计每个国家在数据截止统计时的累计确诊人数。

scala> countryRdd.map(x=>x.split(",")).map(x=>(x(4),x(1).toInt)).reduceByKey((x,y)=>if(x>y) x else y).collect.foreach(println)

②统计全世界在数据截止统计时的总感染人数。

scala> countryRdd.map(x=>x.split(",")).map(x=>(x(4),x(1).toInt)).reduceByKey((x,y)=>if(x>y) x else y).reduce

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大数据与云计算开发者Cd

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬取疫情数据并保存为csv文件

missa_emperor的博客

03-13

4767

import requests import pandas as pd import os import json def get_page(url,headers): try: r=requests.get(url,headers=headers) r.raise_for_status() r.encoding=r.apparent_enc...

巧用python直接读取网址CSV文件，并统计结果——基于新冠疫情数据

kun_coder的博客

12-12

2008

python读取网址CSV文件并统计结果首先第一步打开pycharm（bushi） import pandas as pd data = pd.read_csv(r"http://data.ontario.ca/dataset/f4112442-bdc8-45d2-be3c-12efae72fb27/resource/455fd63b-603d-4608-8216-7d8647f43350/download/conposcovidloc.csv") print("Please input your ci

参与评论您还未登录，请先登录后发表或查看评论

中国社会组织_疫情防控-5_21.csv

06-04

中国社会组织公共服务平台疫情防控专区新闻语料库公开数据集：包含1月26号到5月21号的新闻数据；使用该数据集进行的可视化分析实现：http://flask.yunwei123.tech/ github地址：https://github.com/yunwei37/COVID-19-NLP-vis

countrydata.csv 世界新冠疫情数据字段分析

liuyongsheng666的博客

01-09

945

[root@gree139 exam]# hdfs dfs -mkdir -p /app/data/exam2011 [root@gree139 exam]# hdfs dfs -put ./countrydata.csv /app/data/exam2011 scala> sc.textFile("/app/data/exam2011/") scala> res24 scala> res24.map(x=>x.split(",")) scala> res27.c

利用python进行疫情历史数据下载，时间从1月24日开始至今，分省将数据下载到本地，保存为csv

最新发布

m0_74750317的博客

02-24

1407

近些年，由于计算机技术的迅速发展和广泛应用，各种各样信息统计分析管理系统纷纷运用到各个领域上，充分展现了计算机在信息统计分析方面极其重要，并且获得了很大的社会价值和经济收益。尤其是全世界疫情暴发至今，世界各国疫情局势比较复杂不容乐观，疫情蔓延风险性与日俱增，严重危害在我国各地区安全性，给人民健康和社会稳定造成伤害。

基于python的新冠疫情数据分析.zip

06-27

在本项目中，我们主要探讨的是如何利用Python编程语言进行新冠疫情的数据分析与可视化。这个压缩包文件"基于python的新冠疫情数据分析.zip"包含了整个过程的源代码和相关报告，旨在展示如何利用技术工具来理解和解析...

新冠肺炎国外测试数据-地点表.csv

08-14

疫情期间人民日报微博内容及评论.csv

05-17

2020年1月到4月，新冠疫情人民日报微博内容及评论数据，包括每条微博的转赞评，csv格式，可用于对疫情期间舆情演化、用户情感分析、主题挖掘等舆情分析

新冠肺炎国外测试数据-访问表.csv

08-14

COVID-19世界新冠疫情预测代码（含数据集）COVID-19 prediction

05-06

COVID-19世界疫情分析源代码&数据集，主要包括疫情数据的获取，对获取数据的预处理，数据分析可视化——matplotlib、PyEcharts绘制柱形图、折线图、地图、玫瑰图、动态条形图，使用SIR模型对美国疫情数据进行模拟...

世界各国发展指标.csv

04-23

世界各国发展指标.csv

利用Tushare获取国内新冠肺炎数据

weixin_45158404的博客

03-07

2011

Tushare金融大数据开放社区(https://www.waditu.com/)可以免费获得各种财经数据，例如股票、期货、基金等。最近，亦可以从tushare获取国内每日新冠肺炎的感染人数数据，包括日期，省市名称，累计确诊人数，累计疑似人数，累计治愈人数、累计死亡人数等，具体代码如下。 ```python import tushare as ts pro = ts.pro_api(your t...

Python可视化分析疫情数据

Python案例分享，B站视频教程：https://space.bilibili.com/523606542

09-24

2867

一. 数据来源分析: 1. 确定需求, 采集那个网站上面什么数据 2. 抓包分析, 通过开发者工具进行抓包分析

世界各国新冠疫情数据

weixin_43827376的博客

05-19

1535

接上篇，这是数学建模用到的数据集，各国新冠疫情数据，时间范围2020.2-2021.4，我放到把它放到gitee仓库了，地址在下面。。

新冠疫情数据分析项目实战附完整项目代码实验报告

01-29

在这个名为“新冠疫情数据分析项目实战附完整项目代码实验报告”的资源中，我们可以深入学习如何运用数据分析技术，特别是Python编程语言，来处理和分析新冠疫情的数据。这个项目旨在提供一个实战平台，帮助数据...

1960-2020各国GDP数据.csv

08-12

python爬虫获取的GDP数据。

疫情数据分析平台工作报告【6.5】疫情地图

m0_55675803的博客

06-11

594

数据结构

全国疫情数据分析.zip

07-09

包含全国各省市每日新增确诊病例数、累计确诊病例数、全国新增死亡、全国累积死亡、全国新增治愈、全国累积治愈、全国存量病例、全国湖北外新增确诊趋势。武汉市数据、武汉各小区数据、医院数据等等。能用到的基本都有，在建模时花了很多时间搜集。