CDH5
文章平均质量分 72
富兰克林008
支撑系统运维。
展开
-
CDH5.5上安装Rhadoop,RStudio server版初始化SparkR
CDH的很少看到有资料介绍,看到官方文档明确不支持sparkR。 然后在看到Rhadoop的一些博客,舍弃CDH自带的spark stack,使用Apache上最新的spark1.5.2,直接下载放在节点上,采用spark on yarn的方式调用hadoop资源。 需要做的只是把hadoop,hive的配置拷贝到spark的conf下。免去安装spark集群的工作。 #######原创 2015-12-14 21:18:37 · 2352 阅读 · 0 评论 -
spark on yarn的理解
最近在安装调测CDH5.5,发现官方文档明确不支持spark-sql(需要自己去编译)和sparkR。到/opt/cloudera/parcels/CDH/lib/spark/目录看里面,没有R文件夹,bin里面也没有spark-ql和sparkR。比较失望。 http://www.cloudera.com/content/www/en-us/documentation/enterprise/l原创 2015-12-15 12:07:39 · 3370 阅读 · 0 评论 -
CDH5.5自行编译支持sparkSQL,sparkR
第一步:编译支持hive的spark assembly http://blog.csdn.net/xiao_jun_0820/article/details/44178169 第二步:让cloudera manager装的spark支持hql http://blog.csdn.net/xiao_jun_0820/article/details/44680925 发原创 2015-12-15 13:32:03 · 4245 阅读 · 0 评论 -
DataNode起不来检查记录
今天开机启动HDFS,发现一个DataNode在界面上是停止的,尝试手工再次重启,直接报错,但是界面上输出日志不明显。 然后看日志输出目录(有点忘了日志目录了,查查配置) putty去到目录:查看,发现50020端口被占用: 2015-12-17 10:25:45,261 FATAL org.apache.hadoop.hdfs.server.datano原创 2015-12-17 10:42:57 · 2668 阅读 · 0 评论