scala
无恋-zx
简约的程序员生活
展开
-
Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决
大致就是 工程里分了 java 代码 和 scala 代码。然后在java代码中 引用了 scala 的代码。 运行不报错。 但是打包就是一直报错。[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on projec...转载 2018-10-26 12:51:50 · 1329 阅读 · 0 评论 -
java scala maven 构建打包pom.xml
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://原创 2018-10-26 12:50:54 · 430 阅读 · 0 评论 -
干货-java HDFS系统上解压多文件zip压缩包
package com.zx.utils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSyst...原创 2018-09-25 20:45:27 · 2466 阅读 · 1 评论 -
Spark RDDs vs DataFrames vs SparkSQL
Spark RDDs vs DataFrames vs SparkSQL简介Spark的 RDD、DataFrame 和 SparkSQL的性能比较。2方面的比较 单条记录的随机查找 aggregation聚合并且sorting后输出 使用以下Spark的三种方式来解决上面的2个问题,对比性能。 Using RDD’s Using DataFrame...原创 2018-09-13 19:30:58 · 185 阅读 · 0 评论 -
SpringBoot项目通过httpClient调用SparkRestfulAPI提交spark作业到spark集群运行
package com.rlt.services.impl;import com.alibaba.fastjson.JSON;import com.rlt.entity.SparkConfEntity;import com.rlt.entity.SparkResultEntity;import com.rlt.services.DictService;import com.rlt.u...原创 2018-09-13 18:48:58 · 3749 阅读 · 0 评论 -
SparkStreaming入门完整案例
package com.zx.daoimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext}import org....原创 2018-09-13 18:43:01 · 952 阅读 · 1 评论 -
调研公司内部Spark集群能承受多少并发量
任务描述测试公司内部Spark集群能承受多少并发量 Spark集群分配参数节点数:5cpu:20核内存:40g硬盘:500g 每台节点分配参数cpu:4核内存:8g硬盘:100g 测试案例(通过spark集群自带WEBUI进行监控任务提交运行状态)1.编写测试程序1,无限循环通过Spark restful API 提交任务到spark集群...原创 2018-09-18 14:35:38 · 1487 阅读 · 0 评论 -
调研 SparkStreaming API使用
本次调研案例1.使用SparkStreaming去周期性监测指定本地文件目录下是否有文件写入或创建,有则读入SparkRDD进行过滤,分词,计数并将统计结果写入本地2,使用SparkStreaming去周期性监测hdfs系统上指定目录下是否有文件新上传,有则读入SparkRDD进行过滤,分词,计数并将统计结果写入hdfs系统 调研结果1,2两个测试案例均测试成功 问题分...原创 2018-09-18 13:17:24 · 206 阅读 · 0 评论 -
Spark-Spark Streaming例子整理(一)
https://blog.csdn.net/awj321000/article/details/74223899原创 2018-09-18 10:24:00 · 1037 阅读 · 0 评论 -
spark性能调优之提高并行度
spark性能调优之提高并行度并行度就是Spark作业中,各个stage的task数量,也就代表了Spark作业的在各个阶段(stage)的并行度。如果不调节并行度,导致并行度过低,会怎么样?假设,现在已经在spark-submit脚本里面,给我们的spark作业分配了足够多的资源,比如50个executor,每个executor有10G内存,每个executor有3个cpu core...原创 2018-09-06 14:08:01 · 708 阅读 · 0 评论 -
使用REST API提交Apache Spark Job
使用REST API提交Apache Spark Job使用Apache spark时,有时需要从群集外部按需触发Spark作业。我们可以通过两种方式在群集中提交Apache spark作业。Spark从Spark集群中提交要从spark集群中提交spark作业,我们使用spark-submit。下面是一个示例shell脚本,它提交了Spark作业。大多数参与者都是自我解释的。&l...原创 2018-09-11 15:05:54 · 668 阅读 · 0 评论 -
Spark隐藏接口
Spark隐藏接口Spark有一些隐藏的API, 官方没有暴露出来, 下面是一些示例, 可以方便开发获取job状态curl http://spark-cluster-ip:6066/v1/submissions/status/driver-20151008145126-0000 返回样例 { "action" : "SubmissionStatusResponse",...原创 2018-09-11 14:36:39 · 1363 阅读 · 0 评论 -
Scala和Java方法的相互调用
在Scala中调用java的方法,很简单,直接导入传递参数就可以进行调用了.但是在Java中调用Scala的方法呢?经过测试,也是很简答的,静态方法直接传递参数,就可以调用了,非静态的方法,使用对象也可以调用方法具体如下:1.首先是静态方法object ScalaObjectDemo extends App { println("hello zhaojun ...原创 2018-08-08 12:48:26 · 2201 阅读 · 2 评论 -
解Windows系统下运行hadoop、spark程序出错Could not locate executablenull\bin\winutils.exe in the Hadoop binaries
原解Windows系统下运行hadoop、spark程序出错Could not locate executablenull\bin\winutils.exe in the Hadoop binaries最近使用scala编写程序,在Windows系统下调试,对远程服务器上的hbase和hive中的表进行相应的操作,运行时报错Failed to locate the winutils bin...转载 2018-08-08 09:18:47 · 3605 阅读 · 1 评论 -
Spark 内存溢出 处理 及 优化
内存溢出解决方法1. map过程产生大量对象导致内存溢出这种溢出的原因是在单个map中产生了大量的对象导致的。例如:rdd.map(x=>for(i <- 1 to 10000) yield i.toString),这个操作在rdd中,每个对象都产生了10000个对象,这肯定很容易产生内存溢出的问题。针对这种问题,在不增加内存的情况下,可以通过减少每个Task的大小,以便达到每个Tas...转载 2018-04-21 10:57:49 · 5871 阅读 · 0 评论 -
Spark中广播变量知识点
Spark中广播变量知识点1,为什么要使用广播变量?举一个简单的例子,我们要处理一份log文件,里面有ip地址。20090121000132095572000|125.213.100.123|show.51.com|/shoplist.php?phpfile=shoplist2.php&style=1&s通过切分我们可以拿到ip。现在要求我们通过这个ip得到这个ip...转载 2019-01-11 02:54:16 · 267 阅读 · 0 评论