大数据应用技术实验

最新推荐文章于 2022-09-27 18:42:00 发布

m0_59290737

最新推荐文章于 2022-09-27 18:42:00 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59290737/article/details/117903555

版权

需求描述

在这个全球数据大爆炸的时代，当今最火热的IT词汇，它有几个特点：分别是海量数据、急速、种类繁多和数据真实，围绕大数据而衍生出数据挖掘、数据安全、数据分析、数据存储等，极具商业价值，为诸多行业所用。为此很多大型公司开始开发各种能够快速挖掘、编辑、查找对各种数据快速处理的技术。比如Hadoop技术与Spark技术，本次实验技术是以Spark技术为实验

Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。相较于国内外较多的大数据处理框架，Spark以其低延时的出色表现，正在成为继Hadoop的MapReduce之后，新的、最具影响的大数据框架之一。

环境介绍

(不少于100字)

平台系统：Windows10

操作系统：Ubuntu18.4

JDK版本：1.8

Spark版本：3.1.0

Python版本：3.8.0

MYSQL

HBase版本：1.1.5

FileZilla

数据来源描述

老师下发的数据来源，数据文件包含A.txt、B.txtx、data.txt、Algorithm.txt、Database.txt、Python.txt。

数据上传及上传结果查看

先双击打开软件，点击站点管理-新建站点-把空间提供商或者你自己创建的FTP的主机名，主机名可以在虚拟机终端上ifconfig的命令查看，用户名，密码输入上去，并且点击连接即可进入【默认保存密码下次直接点击连接即可】，进入后左边是本地目录和文件列表，右边为FTP的目录文件列表，你把FTP看作自己的U盘一样管理即可，FTP上，选中文件拖动到...的目录可以把文件移动上一层，拖动相应的文件名为移动到相应目录。文件就上传到虚拟机的存储空间当中。

上传的文件就可在虚拟机中刚刚拖拽的目录中查看到

5、数据处理过程描述

1．pyspark交互式编程

(RDD编程初级实践（1）)

本作业提供分析数据data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,Da

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

m0_59290737 CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

138万+: 周排名

218万+: 总排名

1591: 访问

: 等级

14: 积分

2: 粉丝

0: 获赞

4: 评论

10: 收藏

私信

关注

热门文章

大数据应用技术实验 1593

最新评论

大数据应用技术实验
2201_75985724: 求微信，真的很需要这个，要交作业了，哭😭
大数据应用技术实验
meixiaoshizhu: 大佬，加个微信
大数据应用技术实验
Cdf（人名）: 赞~
大数据应用技术实验
大家一起学编程（python）: 作者肯定是那个别人家的孩子

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。