Spark
黑猴子的家
拥有技术,便拥有自由
B站 Up主专注于技术 https://space.bilibili.com/398602910
展开
-
黑猴子的家:Spark 简介
1、官网http://spark.apache.org2、Spark概念Apache Spark是一个开源簇运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了内存内运算技术,能在数据尚未写入硬盘时即在内存内分析运算。Spark在内存内运行程序的运算速度能做到比Hadoop Ma...原创 2018-09-12 16:55:00 · 1351 阅读 · 0 评论 -
黑猴子的家:读取properties配置文件
1、工具方法import java.util.Propertiesobject PropertyUtil { val properties = new Properties try { val stream = ClassLoader.getSystemResourceAsStream("kafka.properties") properties.load(s...原创 2018-11-07 08:45:00 · 150 阅读 · 0 评论 -
黑猴子的家:数据存入Redis
1、RedisUtilimport redis.clients.jedis.{JedisPool, JedisPoolConfig}object RedisUtil { //配置redis连接器 val host = "192.168.2.102" val port = 6379 val timeout = 30000 val config = new Jedis...原创 2018-11-07 09:29:00 · 142 阅读 · 0 评论 -
黑猴子的家:sample 随机抽样
1、Codeval samplerdd = sc.makeRDD(Array( "spark1","spark2","spark3","spark4","spark5", "hadoop1","hadoop2","hadoop3","java4","java5"))sampler原创 2018-11-08 12:52:00 · 313 阅读 · 0 评论 -
黑猴子的家:Spark Sql 读取 Hive 数据
1、HiveAnalysisimport java.util.UUIDimport net.sf.json.JSONObjectimport org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}import scala.collection.mutableobject Hive...原创 2018-11-07 10:33:00 · 364 阅读 · 0 评论 -
黑猴子的家:Spark Sql 开窗函数
1、Codeimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessioncase class Score(name: String, clazz: Int, score: Int)object OverFunction extends App { val sparkConf = new S...原创 2018-11-09 16:45:00 · 343 阅读 · 0 评论 -
黑猴子的家:Spark 写入数据到 Mysql
1、MysqlAnalysis使用spark 写入mysql 无须自己建表import java.util.UUIDimport net.sf.json.JSONObjectimport org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}import scala.collec...原创 2018-11-07 10:37:00 · 333 阅读 · 0 评论 -
黑猴子的家:Spark Sql 写入数据到 Hive
1、Constants 常量object Constants { val TABLE_USER_INFO = "user_info" val TABLE_PRODUCT_INFO = "product_info" val TABLE_USER_VISIT_ACTION = "user_visit_action"}2、DateModel/** * 数量:100...原创 2018-11-07 10:09:00 · 3142 阅读 · 0 评论 -
黑猴子的家:Spark Streaming 消费 kafka topic
1、SparkConsumerimport java.text.SimpleDateFormatimport java.util.Calendarimport com.alibaba.fastjson.{JSON, TypeReference}import kafka.serializer.StringDecoderimport org.apache.spark.{SparkCon...原创 2018-11-07 09:36:00 · 374 阅读 · 0 评论 -
黑猴子的家:Spark 初次启动 WARN Utils: Service 'sparkWorker' could not bind on port 0. Attempting port 1....
1、log日志[ndadmin@bignode2 logs]$ tail -n 300 \spark-ndadmin-org.apache.spark.deploy.worker.Worker-1-bignode2.out.118/10/23 15:47:44 WARN Utils: Service 'sparkWorker' could not bind on port 0. Att...原创 2018-10-23 16:10:00 · 658 阅读 · 0 评论 -
黑猴子的家:利用 livy 远程提交 spark作业
livy是cloudera开发的通过REST来连接。管理spark的解决方案,此文记录在使用livy中遇到的一些问题1、livy的下载livy安装不多赘述,可以从github上自己build,也可以直接从livy.io上直接下载tar包。下载 地址 :http://livy.io/quickstart.html下载之后,解压即可运行2、解压livy后,在livy-env.sh中添加...原创 2018-09-14 15:24:00 · 1406 阅读 · 0 评论 -
黑猴子的家:Spark [ Yarn ] 模式
1、编辑 spark-env.sh[victor@node1 spark]$ vim conf/spark-env.shHADOOP_CONF_DIR=/opt/module/hadoop-2.8.2/etc/hadoopYARN_CONF_DIR=/opt/module/hadoop-2.8.2/etc/hadoop尖叫提示:让Spark能够发现Hadoop配置文件,不分发,在y...原创 2018-09-13 09:11:00 · 253 阅读 · 0 评论 -
黑猴子的家:Spark HA [ Standalone ]
1、概念集群部署完了,但是有一个很大的问题,那就是Master节点存在单点故障,要解决此问题,就要借助zookeeper,并且启动至少两个Master节点来实现高可靠,配置方式比较简单2、集群规划node1 node2 node3 zookeeper zookeeper zookeeper master master ...原创 2018-09-13 08:58:00 · 169 阅读 · 0 评论 -
黑猴子的家:Spark Job History Server
Job History Server ,是一个独立的进程,Spark集群可以不启动1、以复制的方式,创建spark-defaults.conf文件[victor@node1 conf]$ cp spark-defaults.conf.template spark-defaults.conf2、编辑 spark-default.conf[victor@node1 spark]$...原创 2018-09-13 08:42:00 · 144 阅读 · 0 评论 -
黑猴子的家:配置Spark元数据到mysql
1、在/opt/software/目录下解压mysql-connector-java-5.1.46.tar.gz驱动包[victor@node1 software]$ unzip mysql-libs.zip[victor@node1 mysql-libs]$ tar -zxvf mysql-connector-java-5.1.46.tar.gz2、拷贝驱动到/opt/module...原创 2018-09-13 08:30:00 · 219 阅读 · 0 评论 -
黑猴子的家:Spark Standalone 模式环境安装部署
Spark的部署模式有Local、Local-Cluster、Standalone、Yarn、Mesos,我们选择最具代表性的Standalone集群部署模式。1、集群角色从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点,Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点,维护Work...原创 2018-09-13 08:26:00 · 307 阅读 · 0 评论 -
黑猴子的家:Spark jar 包下载
网址http://spark.apache.org/downloads.html原创 2018-09-12 17:13:00 · 2966 阅读 · 0 评论 -
黑猴子的家:Spark Maven pom.xml 简述
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m原创 2018-09-12 17:00:00 · 158 阅读 · 0 评论 -
黑猴子的家:读取properties配置文件
1、pom.xml<!-- https://mvnrepository.com/artifact/org.apache.commons/commons-configuration2 --><dependency> <groupId>org.apache.commons</groupId> <artifactId>c...原创 2018-11-06 23:13:00 · 300 阅读 · 0 评论