学期总结(spark)

·

学习了一学期的课程后我们大家都知道Scala是scalable language的简写,是一门多范式的编程语言,由联邦理工学院洛桑的martin odersky于2001年基于funnel的工作开始设计,设计初衷是要集成面向对象编程和函数式编程的各种特性。

一、Spark—Scala概述

·Scala是一种将面向对象和函数编程结合在一起的高级语言,旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大,不仅可以编写简单脚本,还可以构建大型系统。

·Scala运行于Java平台,Scala程序会通过jvm被编译成class字节码文件,然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下,并且Scala代码可以调用Java方法、继承Java类、实现Java接口等,几乎所有Scala代码都大量使用了Java类库。

·Scala是完全兼容Java的, 其实Scala就是在Java语言基础上增加了一层 编码的“壳”,让程序人员可以通过函数式编程的方式来开发程序。由于Scala最终被编译为.class,所以其实本质上还是Java,所以在Scala中可以任意的调用Java的API。好处显而易见:让Jva程序员可以更无障碍的转到Scala;让原先Java的API仍然可以在Scala中使用;公司中的Java平台不用替换就可以使用Scala。

二、函数式编程

·函数式编程:将所有复杂的问题的解决,拆分为若干函数的处理。每一个函数可以去实现一部分功能,利用很多次函数的处理,最终解决问题。

·函数式编程相对于面向对象编程,更加抽象,好处是,代码可以非常简洁,更多采用常量而不是变量来解决问题,这样额外带来的好处:在线程并发时,可以减少甚至杜绝多线程并发安全问题,特别适合于应用在处理高并发场景、分布式场景下的问题。函数式编程可以使用高阶函数,函数是一等公民,可以更加灵活的进行程序的编写。

·函数式编程并不是面向对象编程的发展,而是另外一种解决问题的思路,两者之间也并没有绝对的好坏之分,在不同的场景中各有各的优缺点。

spark的简介与安装

首先我们要在浏览器访问Scala在线工具:

·查看代码

选择Scala的版本,要选择2.11.12版本Scala

三、在Windows上安装Scala

到Scala官网下载

然后将Scala安装程序下载到本地

期间因为下载路径不正确导致后面的程序无法正常进行安装,之后又重新在官网里下载安装下载到本地,之后要配置Scala的环境变量再测试Scala是否安装成功并启动Scala执行语句。测试Scala是否安装成功,查看Scala版本,启动Scala,执行语句,在linux上安装Scala

四、登录到ied虚拟机

1、在win7虚拟机上利用FinalShell登录ied虚拟机——上传Scala安装包到ied虚拟机——解压Scala安装包到指定目录

2、tar -zxvf scala-2.11.12.tgz -C /usr/local

3、配置Scala环境变量——存盘退出后,执行命令:source/etc/profile

4、测试Scala是否安装成功

5、在Scala的使用中有两个模式交互模式和编译模式

之后学习了Scala变量与数据类型

6、在搭建Scala的intellij IDEA开发环境中,安装scalafmt,创建项目和选择路径的时候老是弄不对,要么就是没有新建文件要么就是选择错误的,有时候创建项目后会显示错误语句;还有用阶乘函数来实现打印直角三角形。创建RDD:在集群中利用parallelize()方法创建RDD、利用makeRDD方法创建RDD,在执行命令的时候总是出现错误,后来经过同学的帮助才消除了错误。

7、SparkSQL案例分析——创建Maven项目、添加依赖和构建插件,修改源目录名称,将源目录由Java改为Scala。

在学习到SparkSQL数据源-Hive表

8、SparkSQL 还支持读取和写入存储在Apache Hive中的数据。然而,由于Hive有大量依赖项,这些依赖项不包括在默认的Spark发行版中,如果在classpath上配置了这些Hive依赖项,Spark就会自动加载它们。需要注意的是,这些Hive依赖项必须出现在所有Worker节点上,因为它们需要访问Hive序列化和反序列化库(SerDes),以便访问存储在Hive中的数据。

9、将Hive配置文件hive-site.xml拷贝到Spark配置目录,执行命令:cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf,进入Spark配置目录,编辑Hive配置文件hive-site.xml启动Hive的metastore,启动Spark Shell,导入SparkSession执行命令:import org.apache.spark.sqlSparkSession。最后在Hive客户端查看生成的hive表。

END

在学习这学期来,刚开始对这个很感兴趣,一步一步跟着老师的讲稿做,有时候更多遇到的是出现问题和报错,但最后都是解决了一系列的问题,然后我自己就把错题记录下来到文本上,这样有利于后面的工作。以后不仅在学习上还是在生活上都会抱有一颗积极向上的心和解决问题的态度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值