![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 72
卷了个积寞
争取做一个在知识的海洋中溺毙的西西子!
展开
-
Spark项目实践--基于 TMDB 数据集的电影数据分析
基于 TMDB 数据集的电影数据分析一、环境搭建二、数据预处理三、使用 Spark 将数据转为 DataFrame四、使用 Spark 进行数据分析并可视化1.单独分析2.字段之间的关系分析五,结语一、环境搭建从假设裸机,环境搭建开始,具体环境搭建操作大体流程如下,具体详细流程点击查看另一篇博客:spark环境搭建大体流程:(1)安装Linux操作系统:比如可以安装Ubuntu 16.04(2)安装Hadoop:需要在Linux系统上安装Hadoop(3)安装Spark:需要在Linux系统上安原创 2021-06-18 01:05:13 · 5353 阅读 · 1 评论 -
spark之RDD编程初级实践(RDD练习题)
实验目的:1.熟悉spark中RDD基本操作以及键值对操作2.熟悉使用RDD编程解决实际问题(RDD)原创 2021-05-01 16:58:50 · 2775 阅读 · 0 评论 -
环境搭建(Spark)
Spark环境搭建Linux环境搭建Hadoop环境搭建Spark环境搭建实现与Pycharm对接Linux环境搭建安装VMWare在VMWare中使用镜像创建Ubuntu,Ubuntu用户名使用自己的名字缩写下图用户名就是Ubuntu的名称,可以自己随意改。(考核要求改为自己名字缩写)这里建议2个处理器,2个内核,运行速度快内存建议2G下面默认硬盘建议60G(我一开始20G,后续根据实验需求,发现20G小了,还得在虚拟机里面改,虽然可以后期改,但比较麻烦,所以这里建议直接原创 2021-05-01 16:21:21 · 316 阅读 · 0 评论 -
sort的使用,输入字符串,输出逆排序
知识点:字符串转列表。list的使用去掉列表中的引号,列表元素string转int型。map函数的使用将得到的列表元素反转输出。sort的使用列表元素遍历输出。for循环使用string ="1,7,16,19,21,56"a=string.split(",")print(a)print(" ")b=list(a)print(b)c=map(int,b)print(c)d=list(c)print(d)d.sort(key=int,revers原创 2021-04-15 18:30:45 · 338 阅读 · 0 评论 -
lambda函数和map函数的理解和使用
lambda函数在说lambda函数前,先来想一下平时的在Python中怎么定义和使用函数的,简单的如下:def sum(x): x=x+5 return x print(sum(8))输出结果都晓得:13上面的代码中,def定义一个函数sum是函数名,x是参数,x=x+5是执行语句这些使用lambda函数来表达就是:sum=lambda x : x+5print(sum(8))输入结果也是13在lambda表达式中,sum是函数名,x是参数,原创 2021-04-15 23:14:27 · 1677 阅读 · 0 评论 -
实现win10系统下pycharm与ubuntu的对接
在学习spark过程中,使用到win系统上的pycharm与ubuntu进行对接,这里记录自己所做的实现对接的流程,其实流程很简单,但是我在这个过程中出错很多,搞得心态都要崩了,觉得有必要记录一下,给出同样错的做个参考。环境:pycharm专业版win10ubuntu14.xpip3 版本10.0.0pyspark3.0.2python默认3.5先说一下大概流程和问题,最后放详细的过程在win10中下载专业版的pycharm打开ubuntu,将默认版本设置为pyt原创 2021-04-10 22:43:25 · 2757 阅读 · 4 评论 -
hadoop和spark的安装,详细步骤
1.环境配置Hadoop安装与安装前的环境配置流程•如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户。在下载好的ubuntu中需要创建hadoop用户,并为其设置密码以及所需权限,为后续的实验方便:sudo useradd -m hadoop -s /bin/bashsudo passwd hadoopsudo adduser hadoop sudo在创建成功后注销现在的环境,再次进入虚拟机使用创建的hadoop用户登录开始实验。原创 2021-03-27 21:56:10 · 7201 阅读 · 0 评论 -
spark之Scala的安装(Linux)
环境:Ubuntu16.4软件版本:jdk1.8、scala 2.13.4scala下载官网:https://www.scala-lang.org/download/在安装scala之前,系统中必须存在jdk1.8版本并配置好java的环境,把jdk的bin目录添加到PATH变量。不确定以前是否下载过jdk的可以使用如下命令进行查看:java -version如果系统之前配置过,就会显示出如下内容:接着正文开始1.通过官网下载好对应的版本,这里我选择的是scala2.13.4.tgz原创 2021-02-13 13:24:08 · 305 阅读 · 0 评论 -
spark理论体系思维导图(用一张图了解spark)
简述Spark生态的组成及其相关组件的作用。答:spark生态组成的主要组件以及组件的作用分别是:(1)spark core: 它是spark最基础,最核心的功能组件,是一种大数据分布式处理框架,建立在RDD之上,主要面向批处理,spark core负责如内存计算,任务调度,部署模式,故障恢复,存储管理等功能。它不仅实现了MapReduce的map函数和reduce函数及计算模型,还提供更多的其他算子。(2) spark SQL: 该组件用于结构化数据处理,建立在Spark和Hive基础之上的数据仓.原创 2021-04-23 20:40:56 · 2248 阅读 · 1 评论