spark第7天-linux

下载jdk
  • 进入jdk官方下载地址,下载java se 7,按照教材选择的比较简单的rpm

出现插曲Sorry, you must accept the License Agreement before downloading,仔细看上方有需要勾选的accept the license

默认下载到下载文件夹里,把它搬到了/opt/java文件夹中,注意sudo权限问题,以及可以直接sudo -s进入root权限操作,最后exit退出root身份

  • 接下来alien -i -c -v jdk-7u80-linux-x64.rpm

发现不管你把压缩文件放在哪里以及在哪里安装,最后一定会帮你挪到默认文件路径/usr/java/jdk1.7.0_80

  • 设置环境变量java_home

1. 修改文件 vim ~/.profile

加入 export JAVA_HOME=/usr/java/jdk1.7.0_80

栽跟头的一点是等号左右两边不要加上空格!

在别的地方看的教程多加了两句:

export CLASSPATH=$:CLASSPATH:$JAVA_HOME/lib/

export PATH=$PATH:$JAVA_HOME/bin

2. 把这个文件里保存的命令执行一次(方法是使用source命令)

执行命令  source ~/.profile

检验是否成功

第一种检验方式:$JAVA_HOME/bin/java -version

注意-version前面需要空格!

第二种检验方式:java -version

×××××

后来下载se8覆盖,java version "1.8.0_152"

----------------------------------------------------------------------------------

下载spark预编译包

选择的是spark1.6.2 hadoop2.6

  • 解压

目录:/opt/spark

tar xvf spark-1.6.2-bin-hadoop2.6.tgz

  • 测试圆周率程序:

进入spark目录:cd spark-1.6.2-bin-hadoop2.6

./bin/run-example SparkPi 10 2>/dev/null

注意!运行时需要加上路径!!别把当前目录不当路径!!!如果你进入bin目录,运行时也需要加上路径,即命令为:./run-example SparkPi 10 2>/dev/null)

输出结果:Pi is roughly 3.143772

  • spark交互式编程

./bin/spark-shell --master local[2]

其中2表示启动两个工作线程

同时master会启动一个http web服务,方便查看spark的工作状态。在浏览器中输入<LocalIP>:4040,可以出现具体界面。

此处犯蠢,localip是需要自己查本机的ip,而不是直接填这几个字母进去...比如我的就是输入http://172.22.255.xxx:4040

然后又跑了几个count first的例子

------------------------------------------------------------------

下一次进行2.3 编程指南

主要是rdd的创建和操作以及编译链接和打包


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark是一个开源的大数据处理框架,可以处理大规模的数据集。而Spark SQL是Spark的一个模块,用于处理结构化数据,支持SQL查询和DataFrame APISpark SQL可以将结构化数据存储在分布式的列式存储系统,并提供了高效的查询引擎,可以在大规模数据集上进行快速的查询和分析。Spark SQL还支持多种数据源,包括Hive、JSON、Parquet等。 ### 回答2: Spark是一个开源的大数据处理工具,它主要的特点是速度快、易于扩展和支持多种语言。Spark可以用于批处理、实时处理、机器学习、图处理、流处理等多个领域,并且可以在大多数基础设施上运行,如Hadoop、Mesos、Kubernetes等,为企业提供了更加便利灵活的大数据处理方案。 Spark SQL是Spark的一个模块,它提供了一个基于SQL的接口以及齐全的支持,让用户可以方便地在Spark上进行结构化数据处理,如数据查询、聚合、过滤等。Spark SQL的优势在于其性能优异,它可以在不同的数据源上运行,包括Hive、Avro、Parquet等。 Spark SQL模块的核心组件为Catalyst,它是一个基于规则的优化器,可以自动优化查询计划,提高整体查询速度。Spark SQL支持多种查询API,包括SQL、DataFrame API和DataSet API,用户可以根据自己的需求选择不同的API来处理数据。 另外,Spark SQL支持数据格式的灵活转换,可以将不同数据源的数据转换为DataFrame或DataSet格式,并且提供了丰富的数据源集成插件,如JDBC、MongoDB、Cassandra等。 总之,Spark以其快速、灵活、易于扩展的特性帮助企业更好地管理和处理大规模结构化数据,而Spark SQL则是Spark的重要组成部分,它提供SQL接口和优化器,让用户可以更加方便地处理和分析结构化数据。 ### 回答3: Spark是一个开源分布式数据处理框架,可以快速处理大规模数据集,支持多种数据源和数据处理方式,具有高效的计算能力和可扩展性。Spark SQL是Spark的一个子项目,提供了一种基于SQL的接口,可以将结构化数据集集成到Spark,支持SQL查询、数据聚合、连接和过滤等操作。Spark SQL支持多种数据源,包括Hive表、JSON、Parquet和CSV格式等,同时也支持DataFrame和Dataset等高级数据结构。Spark SQL还提供了Java、Scala和Python等多种编程语言接口,以便各种开发人员利用Spark SQL进行数据处理和分析。 Spark SQL的一个重要特性是DataFrame,它是一个分布式的数据集合,类似于关系型数据库的表格,但是可以横向扩展到大规模数据集。DataFrame提供了Schema(数据结构)的定义和数据类型的推导,可以简化代码编写和数据处理过程。在Spark SQL,DataFrame可以通过API进行操作,也可以通过SQL查询进行操作。Spark SQL还支持多种数据格式之间的转换,例如从JSON格式转换为Parquet格式,从CSV格式转换为Hive表格等。 Spark SQL的一个优势是可以与其他Spark组件集成,例如Spark Streaming、MLlib和GraphX等,使得数据处理和分析更加高效和简洁。Spark Streaming可以将实时数据处理与批处理数据处理相结合,使得数据处理和分析更加完整和有力。MLlib提供了机器学习算法的实现,可以快速进行数据挖掘和模型训练。GraphX提供了图形计算的能力,可以进行大规模的网络分析和数据可视化。 总之,Spark SQL是一个强大的数据处理框架,可以快速处理各种结构化数据集,并且可以与其他组件集成,实现高效的数据分析和挖掘。随着大数据时代的到来,Spark SQL将成为数据科学和工程师的必备工具之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值