大数据应用技术实验

  1. 需求描述

在这个全球数据大爆炸的时代,当今最火热的IT词汇,它有几个特点:分别是海量数据、急速、种类繁多和数据真实,围绕大数据而衍生出数据挖掘、数据安全、数据分析、数据存储等,极具商业价值,为诸多行业所用。为此很多大型公司开始开发各种能够快速挖掘、编辑、查找对各种数据快速处理的技术。比如Hadoop技术与Spark技术,本次实验技术是以Spark技术为实验

Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。相较于国内外较多的大数据处理框架,Spark以其低延时的出色表现,正在成为继Hadoop的MapReduce之后,新的、最具影响的大数据框架之一。

  1. 环境介绍

(不少于100字)

平台系统:Windows10

操作系统:Ubuntu18.4

JDK版本:1.8

Spark版本:3.1.0

Python版本:3.8.0

MYSQL

HBase版本:1.1.5

FileZilla

  1. 数据来源描述

老师下发的数据来源,数据文件包含A.txt、B.txtx、data.txt、Algorithm.txt、Database.txt、Python.txt。

  1. 数据上传及上传结果查看

先双击打开软件,点击站点管理-新建站点-把空间提供商或者你自己创建的FTP的主机名,主机名可以在虚拟机终端上ifconfig的命令查看,用户名,密码输入上去,并且点击连接即可进入【默认保存密码下次直接点击连接即可】,进入后左边是本地目录和文件列表,右边为FTP的目录文件列表,你把FTP看作自己的U盘一样管理即可,FTP上,选中文件拖动到...的目录可以把文件移动上一层,拖动相应的文件名为移动到相应目录。文件就上传到虚拟机的存储空间当中。

上传的文件就可在虚拟机中刚刚拖拽的目录中查看到

5、数据处理过程描述

   1.pyspark交互式编程

(RDD编程初级实践(1))

本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,Da

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值