spark
文章平均质量分 61
xubc
IT酱油课
展开
-
Spark On Yarn的配置
Spark on Yarn模式下的配置spark-env.sh配置如下,standalone deploy mode部署模式下忽略export JAVA_HOME=/usr/jdk64/jdkexport SPARK_HOME=/opt/spark# Options read in YARN client/cluster modeexport SPARK_CONF_DIR...原创 2020-03-17 19:53:25 · 706 阅读 · 0 评论 -
spark中日志清理
spark开启history-server之后,app日志会保存在制定的目录下,若yarn开启日志收集,也需要进行app-logs的自动清理## yarn日志收集yarn.log-aggregation.retain-seconds = 1209600yarn.log-aggregation.retain-check-interval-seconds = 86400## spa...原创 2018-07-17 10:54:26 · 3487 阅读 · 0 评论 -
spark读取mongodb数据
val spark = SparkSession.builder .appName(this.getClass.getName().stripSuffix("$")) .getOrCreate() val df = spark.read.format("com.mongodb.spark.sql").options( Map原创 2017-06-26 11:38:51 · 10423 阅读 · 0 评论 -
spark application运行时版本不兼容错误
17/06/27 14:34:41 INFO deprecation: mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps17/06/27 14:34:41 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 788原创 2017-07-03 17:46:52 · 1135 阅读 · 0 评论 -
NLP处理-Spark中的HashTF与CountVectorizer模型
http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport sc原创 2017-07-10 15:32:17 · 2999 阅读 · 0 评论 -
spark在windows上local模式下的缺失winutils.exe异常
在window10上Intellij IDEA上已Local的模式运行调试Spark程序,并且将中间结果写入本地目录时,程序抛出异常错误Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties17/06/19 11:24:33 INFO SparkContext: Running Spark原创 2017-06-19 11:49:41 · 5421 阅读 · 0 评论 -
Spark错误异常-sparkMaster GC overhead limit exceeded
Spark错误异常-sparkMaster GC overhead limit exceeded原创 2017-01-09 11:00:06 · 1561 阅读 · 0 评论 -
spark提交任务端口占用异常
当在同一台机器上提交多个spark任务时 并且是以client的方式提交,会报端口占用错误17/05/05 15:51:07 WARN AbstractLifeCycle: FAILED org.spark-project.jetty.server.Server@3c8bdd5b: java.net.BindException: Address already in usejava.net.原创 2017-05-05 16:13:59 · 9469 阅读 · 0 评论 -
spark-submit提交的shell脚本
spark-submit向yarn提交application的脚本,包括spark参数、环境变量、应用程序参数传入#!/bin/bashsource ~/.bash_profileAPP_HOME=/home/data_user/recommendecho $APP_HOME###################### etl候选集和浏览数据集 #################原创 2017-02-09 14:10:02 · 8760 阅读 · 0 评论 -
Spark错误异常-stdout日志乱码
采用Apache版本spark1.2.1时没有出现乱码,但spark-1.1.0-cdh5.2.1版本中,在分布处理的map函数里对中文数据进行debug打印输出进行时出现问号乱码原创 2016-12-30 11:14:50 · 1975 阅读 · 2 评论 -
Spark错误异常-资源占用,任务挂起
运行在standalone模式下,提交的app应用一直在被挂起无法运行15/04/08 02:06:09 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficie原创 2016-12-30 11:57:19 · 1360 阅读 · 0 评论 -
Spring中使用Spark连接的DataSource
在Spring中配置Spark hive-thriftserver的连接DataSource与配置其他数据源连接方式是一样的,如一般Oracle数据源配置,使用如下的Jar包列表使用jdbc的方式连接thriftserver服务访问表数据package com.hadoop.test; import java.sql.Connection;import java.sql.原创 2016-12-30 11:10:10 · 2104 阅读 · 0 评论 -
Spark job在hue-oozie中的另一种方式调度
工作中使用的是hue来配置oozie工作流调度及任务中调度关系,spark job的输入是由hive sql产生输出的表,在配置spark job由于一些客观关系出现很多问题导致无法正确的执行,在oozie中支持spark job的及shell job的配置执行1. 采用spark program组件配置, 目前版本过低无法添加运行时的一些参数官网http://gethue.com原创 2017-01-03 18:58:59 · 7663 阅读 · 2 评论 -
Spark运行模式
Spark设置setMaster=local,不提交集群,在本地启用多线程模拟运行object SparkUtil { private val logger = Logger.getLogger(getClass.getName, true) def getSparkContext(appName:String, local:Boolean=false, threadN原创 2016-12-30 10:20:42 · 421 阅读 · 0 评论