spark
文章平均质量分 76
富兰克林008
支撑系统运维。
展开
-
spark on yarn的理解
最近在安装调测CDH5.5,发现官方文档明确不支持spark-sql(需要自己去编译)和sparkR。到/opt/cloudera/parcels/CDH/lib/spark/目录看里面,没有R文件夹,bin里面也没有spark-ql和sparkR。比较失望。http://www.cloudera.com/content/www/en-us/documentation/enterprise/l原创 2015-12-15 12:07:39 · 3385 阅读 · 0 评论 -
YARN的内存和CPU配置
YARN的内存和CPU配置时间 2015-06-05 00:00:00 JavaChen's Blog原文 http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-configuration.html主题 YARNHadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CP转载 2015-12-23 14:58:01 · 4465 阅读 · 0 评论 -
sparkR在spark on yarn下的问题
sparkR在spark on yarn下的问题官网上可以看到说明“Currently, SparkR supports running on YARN with the yarn-client mode. These steps show how to build SparkR with YARN support and run SparkR programs on a YARN clu原创 2015-12-22 15:45:56 · 2347 阅读 · 3 评论 -
spark-sql中文字符使用问题
所有涉及数据源显示都涉及原始数据的字符集编码和客户端语言环境的设置。那么在spark-sql环境,只要正确的字符集编码和正确的客户端语言环境设置,显示,使用中文,完全不是困难。#上传的文本文件编码,确认是utf8[root@slave2 test]# cat city_test.txt浙江,杭州,300浙江,宁波,150浙江,温州,200浙江,嘉兴,100江苏,南京原创 2015-12-20 13:52:20 · 14936 阅读 · 0 评论 -
禁用共享jar包上传,加快任务启动
禁用共享jar包上传,加快任务启动发现启动spark-sql的时候比较慢,肿么了?平时为减少一堆信息干扰,console没有设置INFO级别,需要改回去看看怎么回事。vi log4j.propertieslog4j.rootCategory=WARN, console改成log4j.rootCategory=INFO, console发现了,一个280M的共享jar包每原创 2015-12-21 11:02:29 · 1048 阅读 · 0 评论 -
spark on yarn图形化任务监控利器:History-server帮你理解spark的任务执行过程
在spark on yarn任务进行时,大家都指导用4040端口监控(默认是,设置其他或者多个任务同时会递增等例外);辣么,任务结束了,还要看图形化界面,那就要开history-server了。CDH安装spark on yarn的时候,就自动安装了history的实例。现在不用CDH自带的spark(版本太久了),自己安装spark新版,所以还得具体配置。搜了一下帖子,2个步骤:原创 2015-12-21 10:45:48 · 11661 阅读 · 0 评论 -
Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较
Impala,Hive,SparkSQL数据清洗后对手续查询的影响比较SparkSQL和Impala执行的时间会比较快,Hive明显慢很多,但是这里比较不是执行单次查询效率,而是三种方式清洗后数据产生结果小文件对后续使用的影响。首先准备好2000万表记录,作为外部表建好。然后把出生日期星座划分,结果生成表格存放。三种方式存放3个不同表格。####################原创 2015-12-20 15:44:25 · 6065 阅读 · 0 评论 -
crontab shell调用spark-sql,实现周期性动态SQL批量自动执行
对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办?spark-sql CLI几个参数,完全满足我等非专业人员。CLI options: -d,--define Variable subsit原创 2015-12-18 13:11:39 · 6492 阅读 · 1 评论 -
CDH5.5.0中配置运行Spark SQL的Thrift Server
CDH5.5.0里面阉割了spark-sql和sparkR,目录里面都没有start-thriftserver.sh,哪怕是spark Standalone部署。前面帖子讲到,CDH5.5.0 spark-sql没有的情况下,在一个节点部署外面社区版的spark1.5.2,spark on yarn后,spark-sql shell的方式可以查询了。但是问题来了,jdbc如何使用s原创 2015-12-16 15:07:11 · 5039 阅读 · 1 评论 -
spark on yarn-kill正在跑进程
spark on yarn-kill正在跑进程spark-kill-running-applicationhttp://stackoverflow.com/questions/29565716/spark-kill-running-applicationYarn RM Application管理页面:插图:在yarn节点上:yarn appl原创 2015-12-16 20:12:48 · 13675 阅读 · 0 评论 -
CDH5.5自行编译支持sparkSQL,sparkR
第一步:编译支持hive的spark assemblyhttp://blog.csdn.net/xiao_jun_0820/article/details/44178169第二步:让cloudera manager装的spark支持hql http://blog.csdn.net/xiao_jun_0820/article/details/44680925发原创 2015-12-15 13:32:03 · 4253 阅读 · 0 评论 -
CDH5.5上安装Rhadoop,RStudio server版初始化SparkR
CDH的很少看到有资料介绍,看到官方文档明确不支持sparkR。然后在看到Rhadoop的一些博客,舍弃CDH自带的spark stack,使用Apache上最新的spark1.5.2,直接下载放在节点上,采用spark on yarn的方式调用hadoop资源。需要做的只是把hadoop,hive的配置拷贝到spark的conf下。免去安装spark集群的工作。#######原创 2015-12-14 21:18:37 · 2360 阅读 · 0 评论 -
Spark on Yarn: Where Have All the Memory Gone?
2015/01/08 by wdong | Uncategorizedinhadoop, Spark, Yarn原文:http://www.wdong.org/wordpress/blog/2015/01/08/spark-on-yarn-where-have-all-my-memory-gone/ Spark on Yarn: Where Have All the Memory Go转载 2015-12-23 15:04:16 · 13055 阅读 · 0 评论