- 博客(8)
- 资源 (5)
- 收藏
- 关注
原创 spark 客户端和集群模式的区别
spark 客户端 driverprogram在提交应用的机器上,运行结果会直接输出到shell中spark运行在集群上 driverprogram在集群中的一台机器上 结果在UI上看 shell中不会输出太多信息
2016-05-30 18:11:18 2215
原创 spark on yarn 配置
yarn-site.xml yarn.resourcemanager.hostname hadoop-yarn.cloudyhadoop.com yarn.nodemanager.aux-services mapreduce_shuffle
2016-05-30 18:04:40 396
原创 spark UI 显示已完成应用的历史信息
1,在HDFS 上创建放历史文件的目录2,配置spark-env.sh的SPARK_HISTORY_OPTS=“-Dspark.eventLog.dir=第一步创建的目录”3,配置spark-defaults.conf 的spark.eventLog.enabled=true,spark.eventLog.dir=第一步创建的目录,spark.eventLog.compress=true
2016-05-30 17:37:07 890
转载 Hadoop多节点集群安装配置
一步步教你Hadoop多节点集群安装配置1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构
2016-05-30 16:17:05 561
转载 Windows下IntelliJ IDEA中调试Spark Standalone
Windows下IntelliJ IDEA中调试Spark Standalone2015-02-01 18:01 9655人阅读 评论(5)收藏举报本文章已收录于:分类: 大数据(131) 作者同类文章X目录(?)[+]一主要思想二前提要求三新建测试项目三调试Spark Standa
2016-05-22 11:27:59 720
原创 使用IDEA编写基于Scala的spark程序中的常见问题
1,ClassNotFound 通过Project Structure 将 main 改为 sources2,提示已经是一个Object 通过Project Structure 将 src 和 main 改为 sources3, 提示 NoSourcesFind spark Scala 版本不同步 看官网 版本依赖
2016-05-20 10:01:14 583
转载 HDFS 常用命令
hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 Hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本地
2016-05-15 17:13:19 4040
转载 Spark集群无法停止的原因分析和解决
Spark集群无法停止的原因分析和解决[日期:2015-08-02]来源:Linux社区 作者:simplestupid[字体:大 中 小]今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止。提示:no org.apache.spark.deploy.master.Master
2016-05-15 15:31:33 1515
spark 论文 中文版
2016-06-28
The Google File System 中文版
2016-06-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人