学期总结(spark)

潘潘.tel

已于 2022-06-13 22:09:12 修改

阅读量269

点赞数

文章标签： spark

于 2022-06-13 22:08:44 首次发布

本文链接：https://blog.csdn.net/py20010218/article/details/125264624

版权

学习了一学期的课程后我们大家都知道Scala是scalable language的简写，是一门多范式的编程语言，由联邦理工学院洛桑的martin odersky于2001年基于funnel的工作开始设计，设计初衷是要集成面向对象编程和函数式编程的各种特性。

一、Spark—Scala概述

·Scala是一种将面向对象和函数编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。

·Scala运行于Java平台，Scala程序会通过jvm被编译成class字节码文件，然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下，并且Scala代码可以调用Java方法、继承Java类、实现Java接口等，几乎所有Scala代码都大量使用了Java类库。

·Scala是完全兼容Java的，其实Scala就是在Java语言基础上增加了一层编码的“壳”，让程序人员可以通过函数式编程的方式来开发程序。由于Scala最终被编译为.class，所以其实本质上还是Java，所以在Scala中可以任意的调用Java的API。好处显而易见：让Jva程序员可以更无障碍的转到Scala；让原先Java的API仍然可以在Scala中使用；公司中的Java平台不用替换就可以使用Scala。

二、函数式编程

·函数式编程：将所有复杂的问题的解决，拆分为若干函数的处理。每一个函数可以去实现一部分功能，利用很多次函数的处理，最终解决问题。

·函数式编程相对于面向对象编程，更加抽象，好处是，代码可以非常简洁，更多采用常量而不是变量来解决问题，这样额外带来的好处：在线程并发时，可以减少甚至杜绝多线程并发安全问题，特别适合于应用在处理高并发场景、分布式场景下的问题。函数式编程可以使用高阶函数，函数是一等公民，可以更加灵活的进行程序的编写。

·函数式编程并不是面向对象编程的发展，而是另外一种解决问题的思路，两者之间也并没有绝对的好坏之分，在不同的场景中各有各的优缺点。

spark的简介与安装

首先我们要在浏览器访问Scala在线工具:

·查看代码

选择Scala的版本，要选择2.11.12版本Scala

三、在Windows上安装Scala

到Scala官网下载

然后将Scala安装程序下载到本地

期间因为下载路径不正确导致后面的程序无法正常进行安装，之后又重新在官网里下载安装下载到本地，之后要配置Scala的环境变量再测试Scala是否安装成功并启动Scala执行语句。测试Scala是否安装成功，查看Scala版本，启动Scala，执行语句，在linux上安装Scala

四、登录到ied虚拟机

1、在win7虚拟机上利用FinalShell登录ied虚拟机——上传Scala安装包到ied虚拟机——解压Scala安装包到指定目录

2、tar -zxvf scala-2.11.12.tgz -C /usr/local

3、配置Scala环境变量——存盘退出后，执行命令：source/etc/profile

4、测试Scala是否安装成功

5、在Scala的使用中有两个模式交互模式和编译模式

之后学习了Scala变量与数据类型

6、在搭建Scala的intellij IDEA开发环境中，安装scalafmt，创建项目和选择路径的时候老是弄不对，要么就是没有新建文件要么就是选择错误的，有时候创建项目后会显示错误语句；还有用阶乘函数来实现打印直角三角形。创建RDD：在集群中利用parallelize()方法创建RDD、利用makeRDD方法创建RDD，在执行命令的时候总是出现错误，后来经过同学的帮助才消除了错误。

7、SparkSQL案例分析——创建Maven项目、添加依赖和构建插件，修改源目录名称，将源目录由Java改为Scala。

在学习到SparkSQL数据源-Hive表

8、SparkSQL 还支持读取和写入存储在Apache Hive中的数据。然而，由于Hive有大量依赖项，这些依赖项不包括在默认的Spark发行版中，如果在classpath上配置了这些Hive依赖项，Spark就会自动加载它们。需要注意的是，这些Hive依赖项必须出现在所有Worker节点上，因为它们需要访问Hive序列化和反序列化库（SerDes），以便访问存储在Hive中的数据。

9、将Hive配置文件hive-site.xml拷贝到Spark配置目录，执行命令：cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf,进入Spark配置目录，编辑Hive配置文件hive-site.xml启动Hive的metastore,启动Spark Shell，导入SparkSession执行命令：import org.apache.spark.sqlSparkSession。最后在Hive客户端查看生成的hive表。