Spark
圈圈任
专注,正念,坚持
展开
-
apt进行软件包管理,查询java的版本
一、命令:sodu apt-get updata1、在Linux中,可以使用apt进行软件包管理,也可以使用apt-get下载安装软件包,下载安装之前,为了获取最新的软件包版本必须先运行apt-get updata。这个命令会连接到Apt Server,更新最新的软件包信息2、运行apt-get必须具有superuser权限,所以在前面加上sudo例如:使用apt-get安装JDKsudo apt...原创 2018-02-28 09:51:51 · 1200 阅读 · 1 评论 -
Spark的Cluster模式架构图
一、在Spark的官网文件中,可以看到Spark的Cluster模式架构图,浏览器输入:https://spark.apache.org/docs/latest/cluster-overview.html(1)DriverProgram 就是程序员设计的Spark程序,在Spark中必须定义SparkContext,它是开发Spark应用程序的入口(2)SparkContext是通过Cluster...原创 2018-02-28 10:44:04 · 916 阅读 · 0 评论 -
关于Spark的local[N]
local[N]代表在本地运行,使用N个线程,也就是说可以同时执行N个程序,虽然在本地运行,但是因为cpu大多是多个核心,所以使用多个线程会加速执行,那么local[4]就代表4个线程...原创 2018-02-28 10:49:17 · 2563 阅读 · 0 评论 -
Hadoop+Spark集群安装步骤详解
一、环境:操作系统版本:SUSE Linux Enterprise Server 11 (x86_64) SP3主机名:192.168.0.10 node1192.168.0.11 node2192.168.0.12 node3192.168.0.13 node4 软件路径:/data/installHadoop集群路径:/dataJAVA_HOME路径:/usr/jdk1...原创 2018-02-28 11:12:40 · 753 阅读 · 0 评论 -
Hadoop+Spark+Hbase单节点安装详解
环境(举例)操作系统版本:SUSE Linux Enterprise Server 11 (x86_64) SP3IP:192.168.0.23主机名:HADOOP软件路径:/data/installHadoop集群路径:/dataJAVA_HOME路径:/usr/jdk1.8.0_66 版本组件名 版本 说明 JRE java version "1.8.0_66" Java(TM) SE...原创 2018-02-28 11:15:56 · 1337 阅读 · 0 评论 -
关于spark-evn.sh的配置(里面有worker的设置)
一、在终端程序输入命令:sudo gedit /usr/local/spark/conf/spark-env.sh(用gedit打开spark-env.sh的文件)打开后找到:export SPARK_MASTER_IP=master(设置master的IP或者服务器名称)export SPARK_WORKER_CORES=1(设置每个Worker使用的CPU核心)export SPARK_WOR...原创 2018-02-28 11:56:39 · 2977 阅读 · 0 评论 -
Broadcast广播变量
一、共享变量可以节省内存与运行时间,提高并行处理的执行效率,共享变量包括:(1)Broadcast广播变量(2)accumulator累加器二、广播变量使用规则:1、可以使用SparkContext.broadcast([初始值])创建2、使用.value的方法读取广播变量的值3、广播变量被创建后,不可以被修改例如:val kvFruit = sc.parallelize(list((1,"app...原创 2018-02-28 16:30:05 · 1279 阅读 · 0 评论 -
建立SBT项目要点
一、首先安装scala,配置本机的环境变量(注意,scala版本和spark版本的匹配性)二、在IDEl中,file——settings——plungs——搜索scala进行install下载三、再搜索sbt进行install,这里要注意sbt的版本选0.13四、下载好后,在本机的用户路径C:\Users\jado\.sbt下添加文件repositories(一般路径为:C:\Users\jado...原创 2018-03-05 15:01:32 · 264 阅读 · 0 评论 -
Spark Streaming 中管理 Kafka Offsets 的几种方式
Offset管理概述Spark Streaming集成了Kafka允许用户从Kafka中读取一个或者多个topic的数据。一个Kafka topic包含多个存储消息的分区(partition)。每个分区中的消息是顺序存储,并且用offset(可以认为是位置)来标记消息。开发者可以在他的Spark Streaming应用中通过offset来控制数据的读取位置,但是这需要好的offset的管理机制。O...原创 2018-04-17 17:32:14 · 341 阅读 · 0 评论