Spark相关
文章平均质量分 85
learneraiqi
南京信息工程大学-数学与统计学院-统计学
展开
-
IntelliJ IDEA单机运行SparkPi实例
刚刚开始接触spark,自己动手实践sparkPi的example,单机模式,本地实现。适合小白体验spark学习的第一个实践。不足之处,欢迎指正。原创 2015-05-14 17:32:40 · 2872 阅读 · 0 评论 -
spark streaming接kafka数据方式汇总
1、利用kafka高阶api(1)常用的方法def main(args: Array[String]) { if (args.length System.err.println("Usage: KafkaWordCount ") System.exit(1) } StreamingExamples.setStre原创 2016-03-22 17:02:14 · 2444 阅读 · 0 评论 -
通过jmc监控spark应用的内存使用情况
1、概述使用jmc工具(1)连接本机java测试程序(2)连接远程主机java测试程序(3)连接spark集群中提交的App中的driver,executor,监控这两个进程的jvm使用情况2、操作过程(1)连接本机测试代码public class HelloWorld { public static void main(Stri原创 2015-12-25 19:28:37 · 4304 阅读 · 0 评论 -
spark aggregateByKey函数使用问题
aggregateByKey样例代码val conf = new SparkConf().setAppName("SparkTest").setMaster("local[*]")val sc = new SparkContext(conf)val data = sc.parallelize(List((1, 3), (1, 2), (1, 4), (2, 3)))def s原创 2015-12-24 11:05:24 · 4829 阅读 · 4 评论 -
Apache Spark 1.6发布(新特性介绍)
Apache Spark 1.6发布CSDN大数据 | 2016-01-06 17:34今天我们非常高兴能够发布Apache Spark 1.6,通过该版本,Spark在社区开发中达到一个重要的里程碑:Spark源码贡献者的数据已经超过1000人,而在2014年年末时人数只有500。那么,Spark 1.6有什么新特性呢?Spark 1.6有逾千个补丁。转载 2016-01-06 17:43:08 · 3189 阅读 · 0 评论 -
spark stream中的dstream对象saveAsTextFiles问题
利用spark streaming从kafka读取数据,进行流数据的统计分析,最后产生dstream类型的结果集,但是涉及到数据的保存时,遇到了一点小障碍。我们都知道,spark中普通rdd可以直接只用saveAsTextFile(path)的方式,保存到本地,hdfs中,但是dstream对象没有saveAsTextFile()方法,只有saveAsTextFiles()方法,而且,其参数只原创 2015-09-19 12:41:17 · 8063 阅读 · 0 评论 -
SparkR的安装配置
1. SparkR的安装配置1.1. R与Rstudio的安装1.1.1. R的安装我们的工作环境都是在Ubuntu下操作的,所以只介绍Ubuntu下安装R的方法:1) 在/etc/apt/sources.list添加源deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu p转载 2015-07-06 14:34:26 · 2339 阅读 · 1 评论 -
SPARK搭建中WORKER起不来的恢复方法
我用的CENTER OS V6.2在编译部署完SPARK 1.1.0和1.2.0后,发现WORKER总是起不来的问题,解决方法分享给大家,希望能有所参考。错误信息:SPARK 1.1.0vm1: failed to launch org.apache.spark.deploy.worker.Worker:vm1: at java.lang.Class.initial转载 2015-06-12 10:54:25 · 5796 阅读 · 1 评论 -
Spark以及SparkR的安装(standalone模式)
[email protected]操作系统 CentOS 7Java 版本 JDK 1.7Spark安装过程请见PDF文件 Spark 1.0的安装配置文件网址:http://www.it165.net/admin/html/201407/3379.html(别忘了配置免密码登陆和关闭防火墙)下面重点描述如何在linux环境下安装R,Rs转载 2015-06-04 14:34:40 · 4126 阅读 · 0 评论 -
IntelliJ IDEA环境中打包+上传主机,spark-submit提交执行
这是上一篇文章的续集,同样适合小白第一次尝试spark,主要是如何在IntelliJ IDEA中对程序打包,上传主机,通过spark-submit来提交执行。原创 2015-05-14 17:39:01 · 3708 阅读 · 0 评论 -
Intellij IDEA快捷键
【常规】Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引用,然后按 F3 可以选择Ctrl+N,可以快速打开类Ct转载 2015-05-13 17:27:08 · 439 阅读 · 0 评论 -
spark 发布 2.2.0版本
Apache Spark 2.2.0是2.x分支上的第三次主版本发布,其他两个版本分别2.0.x,2.1.x两个主版本以及下属的分支版本。这次发布spark移除了Structured Streaming的实验标签。也就是说,这次发布的版本的焦点在于其易用性、稳定性,并完善、解决了超过1100个问题(目前来看,实际上有1146个问题,具体内容可以在spark的 jira上看到)。这次版本主要对一下几翻译 2017-07-24 23:36:02 · 3490 阅读 · 0 评论