2016年05月_ws_developer

06月 05月 03月 02月

原创 spark 客户端和集群模式的区别

spark 客户端 driverprogram在提交应用的机器上，运行结果会直接输出到shell中spark运行在集群上 driverprogram在集群中的一台机器上结果在UI上看 shell中不会输出太多信息

2016-05-30 18:11:18 2215

原创 spark on yarn 配置

yarn-site.xml yarn.resourcemanager.hostname hadoop-yarn.cloudyhadoop.com yarn.nodemanager.aux-services mapreduce_shuffle

2016-05-30 18:04:40 396

原创 spark UI 显示已完成应用的历史信息

1，在HDFS 上创建放历史文件的目录2，配置spark-env.sh的SPARK_HISTORY_OPTS=“-Dspark.eventLog.dir=第一步创建的目录”3，配置spark-defaults.conf 的spark.eventLog.enabled=true，spark.eventLog.dir=第一步创建的目录，spark.eventLog.compress=true

2016-05-30 17:37:07 890

转载 Hadoop多节点集群安装配置

一步步教你Hadoop多节点集群安装配置1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构

2016-05-30 16:17:05 561

转载 Windows下IntelliJ IDEA中调试Spark Standalone

Windows下IntelliJ IDEA中调试Spark Standalone2015-02-01 18:01 9655人阅读评论(5)收藏举报本文章已收录于：分类：大数据（131）作者同类文章X目录(?)[+]一主要思想二前提要求三新建测试项目三调试Spark Standa

2016-05-22 11:27:59 720

原创使用IDEA编写基于Scala的spark程序中的常见问题

1，ClassNotFound 通过Project Structure 将 main 改为 sources2，提示已经是一个Object 通过Project Structure 将 src 和 main 改为 sources3，提示 NoSourcesFind spark Scala 版本不同步看官网版本依赖

2016-05-20 10:01:14 583

转载 HDFS 常用命令

hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 Hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本地

2016-05-15 17:13:19 4040

转载 Spark集群无法停止的原因分析和解决

Spark集群无法停止的原因分析和解决[日期：2015-08-02]来源：Linux社区作者：simplestupid[字体：大中小]今天想停止spark集群，发现执行stop-all.sh的时候spark的相关进程都无法停止。提示：no org.apache.spark.deploy.master.Master

2016-05-15 15:31:33 1515