大数据
文章平均质量分 96
WuliLeong
这个人的确很懒,啥都不会
展开
-
使用python和spark对2020年美国新冠肺炎疫情数据分析
使用python和spark对2020年美国新冠肺炎疫情数据分析本案例基于美国2020年新馆疫情数据作为数据集,数据来源截止至2020年5月19日,编程语言为python,使用spark对数据进行分析,在hadoop环境进行分析,使用Jupyter Notebook作为编写平台。文章目录使用python和spark对2020年美国新冠肺炎疫情数据分析一、实验平台搭建二、数据集1.数据集下载2.格式转换3.将文件上传至HDFS文件系统中三、使用Spark对数据进行分析四、将结果从HDFS下载至本地文件系统原创 2021-06-03 15:17:54 · 3016 阅读 · 3 评论 -
基于Ubuntu Kylin系统在Hadoop的环境下调用MapReduce对单词WordCount计数
基于Ubuntu Kylin系统在Hadoop的环境下调用MapReduce对单词WordCount计数一、首先在VB虚拟机中安装基本配置(基于Ubuntu Kylin已安装完毕)1、首先在终端中创建一个hadoop账户(若不想创建可跳过这一步)sudo useradd -m hadoop -s /bin/bash2、设置hadoop账户的密码sudo passwd hadoop3、为 hadoop 用户增加管理员权限,为防止后续操作出现权限不够的情况sudo adduser hadoop原创 2020-12-05 14:17:56 · 712 阅读 · 3 评论